0 risultati
27 Febbraio 2025
18:30

ChatGPT può sbagliare: gli errori dell’Intelligenza Artificiale

"L'Intelligenza Artificiale non è veramente intelligente". Ma in che senso? Abbiamo provato a stressare ChatGPT e DeepSeek per dimostrare che sanno imitare molto bene il ragionamento umano, ma che commettono errori proprio perché in verità... non ragionano!

24 condivisioni
ChatGPT può sbagliare: gli errori dell’Intelligenza Artificiale
errori chatgpt

L'utilizzo di ChatGPT come strumento quotidiano è sempre più diffuso. Ogni giorno vediamo nascere nuovi LLM (Large Language Model) sempre più prestanti e con tecnologie di Intelligenza Artificiale che migliorano di giorno in giorno. Quello che è importante tenere presente, però, è che l'Intelligenza Artificiale rimane comunque differente dall'intelligenza umana proprio da un punto di vista sostanziale, e questo perché non ragiona davvero, bensì imita molto bene – e sempre meglio – il nostro ragionamento.

L'Intelligenza Artificiale non è intelligenza umana, ma la imita molto bene

L'IntelligenzaArtificiale è, per definizione, una tecnologia che tenta di attribuire alle tecnologie delle caratteristiche considerate tipicamente umane, come ad esempio quella del ragionamento. Questo ci porta spesso a pensare che questo tipo di software sia effettivamente in grado di "pensare con la propria testa", c'è addirittura chi crede che possano avere delle emozioni! In verità, non è così.

Quando si parla di ragionamento da parte dell'Intelligenza Artificiale, dobbiamo tenere presente che si tratta in ogni caso di software che – grazie a determinate tecnologie, come ad esempio il Machine Learning – riescono a riprodurre meccanismi che ricopiano il nostro ragionamento. Può sembrare una differenza sottile, ma è sostanziale. Prendiamo in considerazione gli LLM, cioè i Large Language Model come ChatGPT. Si tratta letteralmente di "modelli linguistici di grandi dimensioni", cioè software che vengono allenati a manipolare i testi che gli vengono forniti in fase di addestramento. Questo significa che, per risponderci, interpretano le parole che compongono le nostre domande e le associano con i testi che gli abbiamo "insegnato", così da riuscire a risponderci nel modo più coerente possibile. E come fanno? In poche parole, cercano la risposta più probabile all'interno di tutte le cose che hanno imparato durane l'addestramento. Questo consente agli LLM di rispondere molto bene alle nostre domande, ma può succedere che avvengano le cosiddette "allucinazioni". Di cosa si tratta?

L'esempio delle "r" in ramarro: perché ChatGPT sbaglia a posizionarle

Per capirlo, prendiamo in considerazione ChatGPT 4o – cioè la versione senza reasoning – e chiediamogli: “Quante r ci sono in ramarro e in che posizione si trovano nella parola?”.  La risposta che otterremo sarà probabilmente errata (a meno di utilizzare la versione o1, che utilizza la metodologia CoT) perché una risposta corretta necessiterebbe di una capacità di ragionamento che, ad ora, non possiede. Noi stessi abbiamo provato a chiederlo al software, che ha sì azzeccato il numero di "r", ma sbagliato la loro posizione:

errore di ChatGPT

La stessa cosa accade se facciamo la medesima domanda a DeepSeek, sempre senza attivare l'opzione di reasoning.

Tuttavia, per ottenere una risposta soddisfacente sia da parte di ChatGPT che di DeepSeek, ci basterà attivare – appunto – il reasoning, cioè le versioni "migliorate" dei due LLM: ChatGPT 01 e DeepSeek R1.
Grazie a una metodologia chiamata Chain of Tought CoT, questi modelli di reasoning riescono a portare a termine il loro compito correttamente senza problemi. Ma come fanno?

Perché le AI fanno errori e come la Chain of Thought risolve il problema

Cerchiamo prima di tutto di capire perché, senza usare il reasoning, i due modelli sbagliano. Dobbiamo tenere presente che gli LLM, proprio perché non pensano veramente, non sono veramente consci di tutte le lettere che stanno leggendo, bensì ragionano per porzioni di testo chiamate token. Possiamo immaginarle come una sorta di "sillabe", che vengono ingrandite o rimpicciolite a seconda di quanto i programmatori vogliono essere precisi o di quanta potenza di calcolo hanno a disposizione. Per questo motivo, leggendo i token e non le singole lettere, i due LLM non sanno quali lettere sono contenute in ogni token, e per questo non sono in grado di contare il numero di r in "ramarro".

Quando attiviamo il modello di reasoning invece, viene utilizzata una metodologia chiamata Chain of Tought, che sostanzialmente prima di rispondere a una domanda, la divide in sottoblocchi di dimensione minore prima di iniziare a ragionare per token. Questo consente al modello di leggere alcune parti del sottotesto che considerando la domanda nel suo insieme, possono sfuggire al software. Nel caso per esempio del conteggio di lettere in una parola, il modello riconosce che si tratta di una richiesta che non può essere soddisfatta attraverso il solito "ragionamento" e decide così di utilizzare direttamente un codice appositamente scritto per eseguire un conteggio.

Ma è possibile "ingannare" anche i modelli di reasoning? Sì. Lo vediamo attraverso un indovinello fatto a DeepSeek R1.

Perché le AI fanno errori e come la Chain of Thought risolve il problema

L'indovinello della lampadina e dei tre interruttori recita così:

Dentro una stanza c'è una lampadina spenta, mentre fuori dalla stanza si trovano tre interruttori diversi. La porta della stanza è chiusa e non c'è modo di vedere se, premendo uno dei tre interruttori, la lampadina si accenda. Quello di cui siamo sicuri è che uno e solo uno dei tre interruttori accende effettivamente la lampadina.

Come facciamo a scoprire quale interruttore sia quello giusto se possiamo aprire la porta una volta sola e, una volta aperta, non possiamo più toccare gli interruttori?

Ponendo questa domanda a DeepSeek R1, riceviamo effettivamente la risposta corretta (la risposta è in inglese; se siete curiosi, potete trovare una soluzione articolata nel nostro articolo sull'indovinello):

risposta deepseek r1 indovinello lampadine

Bene, no? È riuscito a ragionare proprio come faremmo noi. Quello che abbiamo fatto a questo punto, però, è stato ripetere la stessa richiesta ma semplificando l'indovinello: dichiariamo che la stanza in cui si trova la lampadina è in vetro. Un essere umano risponderebbe prontamente che, essendo la stanza in vetro, mi basterà armeggiare con gli interruttori e guardare attraverso la parete quale dei tre accende effettivamente la luce. Il vetro è trasparente!

indovinello tre interruttori una lampadina

DeepSeek R1, invece, ci ha risposto esattamente come aveva fatto nel caso dell'"indovinello classico". E questo proprio perché non sta ragionando, ma "frugando nei cassetti" di ciò che ha imparato, in cerca della risposta più plausibile, trovando così la soluzione classica all'indovinello dei tre interruttori.

soluzione indovinello interruttori

Questo ci dimostra come effettivamente il modello non stia ragionando, ma rispondendo in modo probabilistico, senza per forza dare il giusto peso a tutte le parole che incontra lungo la sua strada.

Avatar utente
Maria Bosco
Creator
Classe 1993, sono laureata in Matematica e Ingegneria Matematica, con la grande convinzione che sia possibile rendere la matematica divertente e comprensibile. Ex-pallanuotista, amante dello sport, dopo aver lavorato nella consulenza informatica, in piena crisi dei trent’anni sono finita a lavorare in televisione per poi finalmente approdare in Geopop.
Sfondo autopromo
Cosa stai cercando?
api url views