Un classico test psicologico ha messo in ginocchio l’intelligenza artificiale
Le debolezze dell’intelligenza artificiale emergono spesso dove meno ce lo si aspetta. Stavolta non si parla di compiti impossibili o ragionamenti filosofici, ma di qualcosa che qualsiasi essere umano fa ogni giorno senza pensarci troppo: restare concentrati quando le cose si complicano. Un gruppo di ricercatori guidato da Suketu Patel ha sottoposto alcuni dei più avanzati modelli di linguaggio (quelli dietro strumenti come ChatGPT, Claude e Gemini) a un esperimento psicologico vecchio di decenni, il cosiddetto Stroop task. E i risultati, pubblicati su PNAS Nexus il 10 giugno 2026, raccontano una storia parecchio interessante.
Il test funziona così: vengono mostrate parole come “rosso”, “blu” o “verde”, scritte però con inchiostro di colore diverso da quello indicato dalla parola stessa. Per esempio, la parola “rosso” scritta in blu. Il compito è semplice in apparenza: bisogna identificare il colore dell’inchiostro, ignorando la parola. Per il cervello umano è un piccolo conflitto interno, perché leggere le parole è un automatismo difficile da sopprimere. Gli psicologi usano questo test da sempre per misurare quello che chiamano controllo esecutivo, cioè la capacità di gestire l’attenzione, resistere alle distrazioni e rimanere focalizzati su un obiettivo.
Quando l’IA perde il filo del discorso
Con liste brevi di cinque parole, i modelli di intelligenza artificiale se la sono cavata piuttosto bene, anche quando parola e colore non corrispondevano. Poi però le cose si sono fatte serie. GPT 4o è partito con un’accuratezza del 91% su cinque parole, è sceso al 57% con dieci parole, e a quota quaranta parole è crollato al 15%. Claude 3.5 Sonnet ha retto fino a venti parole, ma poi è precipitato al 24% con liste di quaranta. Pattern simili sono emersi anche con GPT 5, Claude Opus 4.1 e Gemini 2.5. Risultati che fotografano un problema strutturale, non un semplice incidente di percorso.
La situazione è peggiorata ulteriormente quando nella stessa lista comparivano sia elementi coerenti (parola e colore uguali) sia elementi in conflitto. In quei casi, l’accuratezza sugli elementi incongruenti è precipitata quasi a zero. I modelli, in pratica, smettevano di seguire l’istruzione ricevuta e tornavano a fare quello per cui erano stati addestrati con più insistenza: leggere le parole. Un comportamento che somiglia vagamente alla distrazione umana, ma che ha radici completamente diverse.
Cervello biologico e attenzione artificiale: due mondi diversi
Ed è proprio qui che la faccenda diventa davvero significativa. Gli esseri umani affrontano lo stesso identico conflitto cognitivo, eppure riescono a mantenere prestazioni stabili anche davanti a liste lunghe e piene di distrazioni. Il cervello biologico ha meccanismi di filtraggio che funzionano in modo robusto sotto pressione. I modelli di linguaggio, per quanto sofisticati, sembrano privi di qualcosa di equivalente.
Secondo i ricercatori, questo collasso delle prestazioni rivela limiti fondamentali nell’architettura attuale dei grandi modelli linguistici. Non si tratta di un bug che si può risolvere con qualche aggiornamento, ma di una differenza profonda nel modo in cui queste macchine elaborano le informazioni rispetto al cervello umano. L’intelligenza artificiale sa produrre testi brillanti, risolvere problemi complessi e sostenere conversazioni articolate. Ma quando il compito richiede di mantenere il focus resistendo a interferenze crescenti, il meccanismo si inceppa. Un promemoria utile: anche i sistemi più avanzati hanno punti ciechi, e a volte basta un test da manuale di psicologia per farli emergere.


