ChatGPT, Claude e Gemini bocciati a un test psicologico per bambini

Un classico test psicologico ha messo in ginocchio l’intelligenza artificiale

Le debolezze dell’intelligenza artificiale emergono spesso dove meno ce lo si aspetta. Stavolta non si parla di compiti impossibili o ragionamenti filosofici, ma di qualcosa che qualsiasi essere umano fa ogni giorno senza pensarci troppo: restare concentrati quando le cose si complicano. Un gruppo di ricercatori guidato da Suketu Patel ha sottoposto alcuni dei più avanzati modelli di linguaggio (quelli dietro strumenti come ChatGPT, Claude e Gemini) a un esperimento psicologico vecchio di decenni, il cosiddetto Stroop task. E i risultati, pubblicati su PNAS Nexus il 10 giugno 2026, raccontano una storia parecchio interessante.

Il test funziona così: vengono mostrate parole come “rosso”, “blu” o “verde”, scritte però con inchiostro di colore diverso da quello indicato dalla parola stessa. Per esempio, la parola “rosso” scritta in blu. Il compito è semplice in apparenza: bisogna identificare il colore dell’inchiostro, ignorando la parola. Per il cervello umano è un piccolo conflitto interno, perché leggere le parole è un automatismo difficile da sopprimere. Gli psicologi usano questo test da sempre per misurare quello che chiamano controllo esecutivo, cioè la capacità di gestire l’attenzione, resistere alle distrazioni e rimanere focalizzati su un obiettivo.

Quando l’IA perde il filo del discorso

Con liste brevi di cinque parole, i modelli di intelligenza artificiale se la sono cavata piuttosto bene, anche quando parola e colore non corrispondevano. Poi però le cose si sono fatte serie. GPT 4o è partito con un’accuratezza del 91% su cinque parole, è sceso al 57% con dieci parole, e a quota quaranta parole è crollato al 15%. Claude 3.5 Sonnet ha retto fino a venti parole, ma poi è precipitato al 24% con liste di quaranta. Pattern simili sono emersi anche con GPT 5, Claude Opus 4.1 e Gemini 2.5. Risultati che fotografano un problema strutturale, non un semplice incidente di percorso.

La situazione è peggiorata ulteriormente quando nella stessa lista comparivano sia elementi coerenti (parola e colore uguali) sia elementi in conflitto. In quei casi, l’accuratezza sugli elementi incongruenti è precipitata quasi a zero. I modelli, in pratica, smettevano di seguire l’istruzione ricevuta e tornavano a fare quello per cui erano stati addestrati con più insistenza: leggere le parole. Un comportamento che somiglia vagamente alla distrazione umana, ma che ha radici completamente diverse.

Cervello biologico e attenzione artificiale: due mondi diversi

Ed è proprio qui che la faccenda diventa davvero significativa. Gli esseri umani affrontano lo stesso identico conflitto cognitivo, eppure riescono a mantenere prestazioni stabili anche davanti a liste lunghe e piene di distrazioni. Il cervello biologico ha meccanismi di filtraggio che funzionano in modo robusto sotto pressione. I modelli di linguaggio, per quanto sofisticati, sembrano privi di qualcosa di equivalente.

Secondo i ricercatori, questo collasso delle prestazioni rivela limiti fondamentali nell’architettura attuale dei grandi modelli linguistici. Non si tratta di un bug che si può risolvere con qualche aggiornamento, ma di una differenza profonda nel modo in cui queste macchine elaborano le informazioni rispetto al cervello umano. L’intelligenza artificiale sa produrre testi brillanti, risolvere problemi complessi e sostenere conversazioni articolate. Ma quando il compito richiede di mantenere il focus resistendo a interferenze crescenti, il meccanismo si inceppa. Un promemoria utile: anche i sistemi più avanzati hanno punti ciechi, e a volte basta un test da manuale di psicologia per farli emergere.

ChatGPT, Claude e Gemini bocciati a un test psicologico per bambini

Un classico test psicologico ha messo in ginocchio l’intelligenza artificiale

Quando l’IA perde il filo del discorso

Cervello biologico e attenzione artificiale: due mondi diversi

Subscribe

Mini satelliti su Marte? Il motore del MIT che cambia tutto

Siri AI: Apple lancia l’app dedicata che cambia tutto

macOS 27 stravolge tutto: Liquid Glass e AI cambiano il Mac per sempre

iOS 27: ecco tutti i dispositivi Apple compatibili con i nuovi aggiornamenti

Glucosamina e Alzheimer: lo studio che cambia tutto

More like this
Related

Mini satelliti su Marte? Il motore del MIT che cambia tutto

Siri AI: Apple lancia l’app dedicata che cambia tutto

macOS 27 stravolge tutto: Liquid Glass e AI cambiano il Mac per sempre

iOS 27: ecco tutti i dispositivi Apple compatibili con i nuovi aggiornamenti

Chi Siamo

Informazioni

ChatGPT, Claude e Gemini bocciati a un test psicologico per bambini

Un classico test psicologico ha messo in ginocchio l’intelligenza artificiale

Quando l’IA perde il filo del discorso

Cervello biologico e attenzione artificiale: due mondi diversi

Subscribe

More like thisRelated

Chi Siamo

Informazioni

More like this
Related