ChatGPT sbaglia più di quanto pensi: lo studio che fa riflettere

Date:

ChatGPT e la scienza: uno studio rivela errori più frequenti del previsto

Quanto ci si può fidare di ChatGPT quando si tratta di valutare affermazioni scientifiche? Meno di quanto molti penserebbero. Uno studio condotto dalla Washington State University ha messo alla prova il chatbot più famoso del mondo sottoponendogli centinaia di ipotesi tratte da ricerche accademiche, e i risultati fanno riflettere parecchio. Perché sì, a prima vista l’intelligenza artificiale sembra cavarsela bene, ma grattando la superficie emergono limiti piuttosto evidenti.

Il team guidato dal professor Mesut Cicek ha raccolto 719 ipotesi da studi pubblicati su riviste di business dal 2021 in poi. A ChatGPT veniva chiesto, in pratica, di stabilire se ciascuna affermazione fosse vera o falsa sulla base delle evidenze scientifiche. Ogni domanda è stata ripetuta dieci volte, identica, per misurare la coerenza delle risposte. Nella prima tornata di test, condotta nel 2024, il tasso di accuratezza si è fermato al 76,5%. Nel 2025, con una versione aggiornata, è salito all’80%. Numeri che sembrano discreti, finché non si tiene conto di un dettaglio fondamentale: aggiustando i dati per eliminare l’effetto del caso (che da solo garantisce il 50% di risposte corrette su domande vero/falso), la performance reale di ChatGPT supera la casualità solo del 60% circa. In termini scolastici, siamo dalle parti di un’insufficienza stiracchiata.

Il problema dell’incoerenza nelle risposte

Il dato forse più inquietante riguarda la coerenza delle risposte. Ponendo la stessa identica domanda dieci volte, ChatGPT ha fornito risposte stabili solo nel 73% dei casi. Nel restante 27%, ha oscillato tra vero e falso senza una logica apparente. “Cinque volte vero, cinque volte falso. Stessa domanda, stesse parole, risultati opposti”, ha spiegato Cicek, che insegna nel Dipartimento di Marketing e International Business della WSU. Particolarmente debole la capacità di identificare le affermazioni false: solo il 16,4% di riconoscimento corretto. Un numero che dovrebbe far alzare più di un sopracciglio a chi utilizza questi strumenti per prendere decisioni importanti.

Fluente non vuol dire competente

Lo studio, pubblicato sulla Rutgers Business Review, mette il dito su una questione che troppo spesso viene sottovalutata. L’IA generativa sa produrre testi fluidi, convincenti, strutturati alla perfezione. Ma generare linguaggio persuasivo non equivale a comprendere davvero ciò di cui si sta parlando. ChatGPT, così come altri modelli linguistici di grandi dimensioni, non ragiona nel senso umano del termine. Memorizza pattern, li ricombina, e il risultato può suonare brillante pur essendo sbagliato.

Cicek non è un nemico dell’intelligenza artificiale, ci tiene a precisarlo. “La uso anche nella mia attività quotidiana. Ma bisogna essere molto cauti”. Il suo consiglio è chiaro: verificare sempre le informazioni generate dall’IA, soprattutto quando le domande richiedono ragionamento complesso o sfumature concettuali. I ricercatori hanno anche notato che esperimenti simili condotti con altri strumenti di IA hanno prodotto risultati comparabili, il che suggerisce un limite strutturale della tecnologia attuale e non solo di un singolo prodotto.

Vale la pena ricordare anche un altro dato interessante emerso da una ricerca parallela del 2024: i consumatori si mostrano meno propensi ad acquistare prodotti quando il marketing insiste troppo sulla componente IA. Come a dire che il pubblico, forse istintivamente, percepisce già che dietro la facciata lucida c’è ancora molta strada da fare. E gli scienziati, con studi come questo, stanno mettendo nero su bianco quello che in molti sospettavano da tempo.

Share post:

Subscribe

spot_imgspot_img

Popular

More like this
Related

Apple Music lancia Playlist Playground: crei playlist con un prompt

Apple Music lancia Playlist Playground: creare playlist con un prompt non è mai stato così veloce La funzione Playlist Playground è arrivata su Apple Music e sta già facendo parlare di sé. Si tratta di uno strumento che permette di costruire playlist semplicemente descrivendo quello che si vuole...

Meta Ray-Ban usati per filmare di nascosto: ora il problema è anche di Apple

Gli occhiali smart di Meta finiscono al centro di un caso privacy che riguarda anche Apple Gli occhiali smart di Meta, quelli che sembrano dei normalissimi Ray-Ban, stanno creando un problema serio. E non è un problema tecnico, ma profondamente umano. Vengono usati per filmare persone in bagni...

Elgato Prompter XL, hardware top ma il software lo frena: ecco perché

Elgato Prompter XL: hardware eccellente, software ancora da affinare Il nuovo Elgato Prompter XL rappresenta l'evoluzione naturale di un prodotto che aveva già convinto parecchi creator e professionisti del video. Schermo più grande, finiture migliorate, attenzione ai dettagli costruttivi portata a...

tvOS 26.4 su Apple TV: le novità che cambiano l’esperienza

tvOS 26.4 porta novità interessanti su Apple TV: ecco cosa cambia L'aggiornamento tvOS 26.4 è arrivato questa settimana e porta con sé una serie di funzionalità che vale la pena conoscere, soprattutto per chi usa quotidianamente la propria Apple TV. Non si tratta di una rivoluzione, sia chiaro, ma...