ChatGPT, Claude e Gemini bocciati a un test psicologico per bambini

Date:

Un classico test psicologico ha messo in ginocchio l’intelligenza artificiale

Le debolezze dell’intelligenza artificiale emergono spesso dove meno ce lo si aspetta. Stavolta non si parla di compiti impossibili o ragionamenti filosofici, ma di qualcosa che qualsiasi essere umano fa ogni giorno senza pensarci troppo: restare concentrati quando le cose si complicano. Un gruppo di ricercatori guidato da Suketu Patel ha sottoposto alcuni dei più avanzati modelli di linguaggio (quelli dietro strumenti come ChatGPT, Claude e Gemini) a un esperimento psicologico vecchio di decenni, il cosiddetto Stroop task. E i risultati, pubblicati su PNAS Nexus il 10 giugno 2026, raccontano una storia parecchio interessante.

Il test funziona così: vengono mostrate parole come “rosso”, “blu” o “verde”, scritte però con inchiostro di colore diverso da quello indicato dalla parola stessa. Per esempio, la parola “rosso” scritta in blu. Il compito è semplice in apparenza: bisogna identificare il colore dell’inchiostro, ignorando la parola. Per il cervello umano è un piccolo conflitto interno, perché leggere le parole è un automatismo difficile da sopprimere. Gli psicologi usano questo test da sempre per misurare quello che chiamano controllo esecutivo, cioè la capacità di gestire l’attenzione, resistere alle distrazioni e rimanere focalizzati su un obiettivo.

Quando l’IA perde il filo del discorso

Con liste brevi di cinque parole, i modelli di intelligenza artificiale se la sono cavata piuttosto bene, anche quando parola e colore non corrispondevano. Poi però le cose si sono fatte serie. GPT 4o è partito con un’accuratezza del 91% su cinque parole, è sceso al 57% con dieci parole, e a quota quaranta parole è crollato al 15%. Claude 3.5 Sonnet ha retto fino a venti parole, ma poi è precipitato al 24% con liste di quaranta. Pattern simili sono emersi anche con GPT 5, Claude Opus 4.1 e Gemini 2.5. Risultati che fotografano un problema strutturale, non un semplice incidente di percorso.

La situazione è peggiorata ulteriormente quando nella stessa lista comparivano sia elementi coerenti (parola e colore uguali) sia elementi in conflitto. In quei casi, l’accuratezza sugli elementi incongruenti è precipitata quasi a zero. I modelli, in pratica, smettevano di seguire l’istruzione ricevuta e tornavano a fare quello per cui erano stati addestrati con più insistenza: leggere le parole. Un comportamento che somiglia vagamente alla distrazione umana, ma che ha radici completamente diverse.

Cervello biologico e attenzione artificiale: due mondi diversi

Ed è proprio qui che la faccenda diventa davvero significativa. Gli esseri umani affrontano lo stesso identico conflitto cognitivo, eppure riescono a mantenere prestazioni stabili anche davanti a liste lunghe e piene di distrazioni. Il cervello biologico ha meccanismi di filtraggio che funzionano in modo robusto sotto pressione. I modelli di linguaggio, per quanto sofisticati, sembrano privi di qualcosa di equivalente.

Secondo i ricercatori, questo collasso delle prestazioni rivela limiti fondamentali nell’architettura attuale dei grandi modelli linguistici. Non si tratta di un bug che si può risolvere con qualche aggiornamento, ma di una differenza profonda nel modo in cui queste macchine elaborano le informazioni rispetto al cervello umano. L’intelligenza artificiale sa produrre testi brillanti, risolvere problemi complessi e sostenere conversazioni articolate. Ma quando il compito richiede di mantenere il focus resistendo a interferenze crescenti, il meccanismo si inceppa. Un promemoria utile: anche i sistemi più avanzati hanno punti ciechi, e a volte basta un test da manuale di psicologia per farli emergere.

Share post:

Subscribe

spot_imgspot_img

Popular

More like this
Related

Mini satelliti su Marte? Il motore del MIT che cambia tutto

Il motore del MIT che potrebbe portare mini satelliti fino a Marte Un nuovo sistema di propulsione spaziale sviluppato al MIT promette di cambiare radicalmente le regole del gioco per i piccoli satelliti. E non si tratta di un'idea buttata lì in qualche paper accademico destinato a prendere...

Siri AI: Apple lancia l’app dedicata che cambia tutto

Apple rilancia il suo assistente: arriva Siri AI con un'app dedicata Durante il keynote della WWDC26, Apple ha fatto una mossa che in molti aspettavano da anni. L'assistente vocale più discusso (e spesso criticato) del mondo tech cambia pelle e si presenta come Siri AI, con un'architettura...

macOS 27 stravolge tutto: Liquid Glass e AI cambiano il Mac per sempre

macOS 27 porta il design Liquid Glass e l'intelligenza artificiale su Mac Con la presentazione alla WWDC 2025, Apple ha svelato macOS 27, il nuovo sistema operativo che promette di cambiare radicalmente l'esperienza d'uso quotidiana del Mac. Non si tratta del solito aggiornamento incrementale:...

iOS 27: ecco tutti i dispositivi Apple compatibili con i nuovi aggiornamenti

iOS 27, iPadOS 27, watchOS 27 e macOS 27: tutti i dispositivi Apple compatibili La lista completa dei dispositivi supportati da iOS 27 è finalmente arrivata, e come sempre succede dopo ogni WWDC, la domanda che tutti si fanno è una sola: il proprio iPhone, iPad, Mac o Apple Watch ce la farà anche...