;)
In che lingua pensa ChatGPT? Quando comunichiamo con un’intelligenza artificiale come ChatGPT, Gemini o Claude, lo facciamo nella nostra lingua: che sia italiano, francese, inglese, cinese… e l’AI ci risponde nella stessa lingua, in modo coerente. Ma com’è possibile che un’unica AI riesca a comprendere ed elaborare risposte in tutte le lingue del mondo? In che lingua “pensa” prima di rispondere? Queste domande, che possono sembrare solo curiosità, sono al centro di numerosissime ricerche negli ultimi anni. Capire come l’AI elabora il linguaggio ci aiuta a capirne potenzialità, limiti e, soprattutto, controllarne i rischi.
Per provare a rispondere a queste domande, nel marzo 2025, Anthropic – l’azienda che sviluppa Claude – ha pubblicato una ricerca su come il proprio modello interpreta il linguaggio. Lo studio ha mostrato che Claude 3.5 Haiku funziona in modo simile al cervello delle persone bilingue: attiva le stesse “aree” interne quando elabora parole in lingue diverse. In pratica, se si pone a Claude una domanda in più lingue, si attivano gli stessi “circuiti” indipendentemente dalla lingua usata. Questo processo consente a Claude di trasferire concetti da una lingua all’altra, permette a chi la utilizza di scrivere nella propria lingua madre senza perdere in qualità della risposta e ci indirizza verso la creazione di AI sempre più trasparenti e sicure.
In questo articolo vediamo come funzionano i modelli di linguaggio, cosa significa dire che un’AI “pensa” in più lingue, e perché capire questi meccanismi è fondamentale per costruire sistemi più affidabili, trasparenti e sicuri.
Cosa sono e come “pensano” i Large Language Models
I modelli linguistici di grandi dimensioni, o LLM (Large Language Models), sono sistemi di AI progettati per interpretare, processare e generare testo. Sono alla base di strumenti come ChatGPT, Gemini e Claude, e sono capaci di conversare, riassumere documenti, rispondere a domande complesse e anche tradurre tra lingue. Per fare tutte queste operazioni, non sono stati programmati riga per riga dagli esseri umani, ma sono stati allenati su enormi quantità di testi, dai quali imparano da soli a riconoscere schemi, relazioni e regole del linguaggio.
Anche se sappiamo quali sono i meccanismi principali alla base delle scelte delle parole e dell’interpretazione delle richieste da parte degli LLM, le strategie logiche che sviluppano durante la fase di allenamento per affrontare i compiti linguistici sono tuttora poco interpretabili, anche da parte degli sviluppatori stessi.
Come ha detto lo stesso CEO di Anthropic:
Quando un’intelligenza artificiale generativa fa qualcosa, come riassumere un documento finanziario, non abbiamo idea […] del perché faccia le scelte che fa, perché scelga certe parole piuttosto che altre, o perché occasionalmente commetta un errore nonostante sia di solito accurato.
Proprio per questa ragione, riuscire a capire le logiche profonde alla base delle scelte linguistiche o dell’interpretazione dei testi è un punto centrale per avere delle AI sempre più sicure.
Claude “pensa in più lingue”? La ricerca di Anthropic
Per provare ad interpretare il funzionamento di Claude e per capire se “pensa” in modo diverso a seconda della lingua in cui viene posta la domanda, Anthropic ha deciso di osservare quali aree si “attivano” quando una domanda viene posta in lingue diverse e come queste aree sono connesse tra loro, un po’ come quando si fa una risonanza magnetica su un cervello umano.
Sono partiti da richieste semplici: hanno chiesto, ad esempio, a Claude di completare la frase “L’opposto di ‘piccolo’ è…” in inglese, francese e cinese. Analizzando le attivazioni interne del modello, hanno capito che:
- “Piccolo”, “small” e “petit” attivano sempre la stessa area, cioè, indipendentemente dalla lingua usata, lo stesso concetto (l’essere “piccolo”) corrisponderà alla stessa zona del modello;
- Quando si attiva l’area che contiene il concetto di “piccolo” e quella di “opposto”, si attiva anche l’area che contiene il concetto di “grande”, e questo vale per tutte le lingue. Per Claude, il meccanismo con cui si genera l’opposto di una parola non dipende dalla lingua, ma fa riferimento a una rappresentazione comune, condivisa, astratta. Claude, quindi, è capace di generalizzare le relazioni tra i concetti e di renderle indipendenti dalla lingua di partenza.
Questo studio, ovviamente, ha anche delle limitazioni. Nonostante siano state studiate solo richieste molto brevi e facili da interpretare, il gruppo di ricerca non è comunque riuscito a spiegare tutte le operazioni che Claude stava facendo per generare la risposta. Questo è un segno di quanto siamo ancora lontani da comprendere davvero in profondità il funzionamento di questi modelli.
Non abbiamo ancora capito a fondo come “pensa” l’AI
Capire in quale lingua “pensa” un modello di linguaggio ha conseguenze molto pratiche, soprattutto per progettare sistemi che funzionino bene in più lingue, che siano efficienti e, soprattutto, sicuri. Se un’AI riesce davvero ad astrarre i concetti e a collegarli tra loro, allora può trasferire ciò che ha appreso in una lingua anche alle altre. Questo permette di garantire coerenza e qualità nelle risposte, a prescindere dalla lingua dell’utente.
La ricerca in quest’ambito, però, è ancora agli inizi, e le opinioni della comunità scientifica non sono unanimi. Alcuni studi sostengono che i modelli di linguaggio più avanzati utilizzano strutture veramente multilingue, come Claude. Altri, invece, osservano che, anche nei sistemi più sofisticati, l’inglese continua a giocare un ruolo dominante, soprattutto nei passaggi finali della generazione delle risposte. La ragione principale è legata all’allenamento: la maggior parte dei dati su cui vengono istruiti questi modelli è, ancora oggi, in lingua inglese.
Nonostante tutti i limiti, studi come quello di Anthropic rappresentano un primo passo verso una maggiore trasparenza dei meccanismi interni dei modelli linguistici. La strada per comprendere davvero i meccanismi interni dell’AI è ancora lunga, ma studi come questo rappresentano tappe fondamentali per una maggiore padronanza di questa tecnologia.