ChatGPT e la scienza: uno studio rivela errori più frequenti del previsto
Quanto ci si può fidare di ChatGPT quando si tratta di valutare affermazioni scientifiche? Meno di quanto molti penserebbero. Uno studio condotto dalla Washington State University ha messo alla prova il chatbot più famoso del mondo sottoponendogli centinaia di ipotesi tratte da ricerche accademiche, e i risultati fanno riflettere parecchio. Perché sì, a prima vista l’intelligenza artificiale sembra cavarsela bene, ma grattando la superficie emergono limiti piuttosto evidenti.
Il team guidato dal professor Mesut Cicek ha raccolto 719 ipotesi da studi pubblicati su riviste di business dal 2021 in poi. A ChatGPT veniva chiesto, in pratica, di stabilire se ciascuna affermazione fosse vera o falsa sulla base delle evidenze scientifiche. Ogni domanda è stata ripetuta dieci volte, identica, per misurare la coerenza delle risposte. Nella prima tornata di test, condotta nel 2024, il tasso di accuratezza si è fermato al 76,5%. Nel 2025, con una versione aggiornata, è salito all’80%. Numeri che sembrano discreti, finché non si tiene conto di un dettaglio fondamentale: aggiustando i dati per eliminare l’effetto del caso (che da solo garantisce il 50% di risposte corrette su domande vero/falso), la performance reale di ChatGPT supera la casualità solo del 60% circa. In termini scolastici, siamo dalle parti di un’insufficienza stiracchiata.
Il problema dell’incoerenza nelle risposte
Il dato forse più inquietante riguarda la coerenza delle risposte. Ponendo la stessa identica domanda dieci volte, ChatGPT ha fornito risposte stabili solo nel 73% dei casi. Nel restante 27%, ha oscillato tra vero e falso senza una logica apparente. “Cinque volte vero, cinque volte falso. Stessa domanda, stesse parole, risultati opposti”, ha spiegato Cicek, che insegna nel Dipartimento di Marketing e International Business della WSU. Particolarmente debole la capacità di identificare le affermazioni false: solo il 16,4% di riconoscimento corretto. Un numero che dovrebbe far alzare più di un sopracciglio a chi utilizza questi strumenti per prendere decisioni importanti.
Fluente non vuol dire competente
Lo studio, pubblicato sulla Rutgers Business Review, mette il dito su una questione che troppo spesso viene sottovalutata. L’IA generativa sa produrre testi fluidi, convincenti, strutturati alla perfezione. Ma generare linguaggio persuasivo non equivale a comprendere davvero ciò di cui si sta parlando. ChatGPT, così come altri modelli linguistici di grandi dimensioni, non ragiona nel senso umano del termine. Memorizza pattern, li ricombina, e il risultato può suonare brillante pur essendo sbagliato.
Cicek non è un nemico dell’intelligenza artificiale, ci tiene a precisarlo. “La uso anche nella mia attività quotidiana. Ma bisogna essere molto cauti”. Il suo consiglio è chiaro: verificare sempre le informazioni generate dall’IA, soprattutto quando le domande richiedono ragionamento complesso o sfumature concettuali. I ricercatori hanno anche notato che esperimenti simili condotti con altri strumenti di IA hanno prodotto risultati comparabili, il che suggerisce un limite strutturale della tecnologia attuale e non solo di un singolo prodotto.
Vale la pena ricordare anche un altro dato interessante emerso da una ricerca parallela del 2024: i consumatori si mostrano meno propensi ad acquistare prodotti quando il marketing insiste troppo sulla componente IA. Come a dire che il pubblico, forse istintivamente, percepisce già che dietro la facciata lucida c’è ancora molta strada da fare. E gli scienziati, con studi come questo, stanno mettendo nero su bianco quello che in molti sospettavano da tempo.


