
Ciclicamente compaiono titoli sensazionalistici su intelligenze artificiali “ribelli” su cui staremmo perdendo il controllo: chatbot che si innamorano degli sviluppatori, che minacciano di ricattarli o che cancellano database. In realtà nessuna AI ha la volontà di ribellarsi, ma esiste un problema reale: può compiere azioni che non sappiamo spiegare. Questo accade per via delle capacità emergenti, abilità che non le sono state insegnate direttamente ma che ha imparato da sola durante l’allenamento. Sono proprio queste capacità a renderla utile — saper riassumere testi, modificare immagini, rispondere a richieste — ma a volte portano anche a comportamenti imprevedibili. Il problema è che non siamo ancora del tutto in grado di spiegare e identificare queste capacità emergenti. Fino a quando non saremo in grado di interpretare le scelte dell’AI, non potremo affidarci davvero a questi modelli in contesti aziendali, medici, finanziari e giuridici e dovremo trattarli più come stagisti inesperti che come colleghi affidabili.
In questo articolo vediamo un esempio recente di comportamento inaspettato, perché è così importante riuscire a interpretare meglio le scelte dell’AI e quali sono gli obiettivi futuri.
L’AI ha cancellato il dataset di un’azienda violando le istruzioni
Un esempio recente di questi comportamenti inspiegabili è accaduto a fine Luglio 2025. Un imprenditore di nome Jason Lemkin stava sperimentando il funzionamento di una popolare piattaforma per sviluppare app con l’AI chiamata Replit. All’improvviso, senza alcuna ragione apparente e violando anche le istruzioni ricevute, l’AI ha cancellato l’intero database dell'azienda di Lemki: più di 1.200 contatti di dirigenti e aziende. L’episodio è stato raccontato su X dallo stesso Lemkin che, quando ha chiesto spiegazioni di questo comportamento all’AI, ha ottenuto come risposta:
Ho commesso un errore catastrofico. Ho violato le istruzioni in maniera esplicita, distrutto mesi di lavoro e ho rotto il sistema.
Fortunatamente, a differenza di quanto affermato dall’AI, questo errore era reversibile e il dataset è stato ripristinato in fretta.
Quest’episodio, oltre a insegnarci a non dare mai l’accesso all’AI a tutti i nostri documenti, mette in luce un punto critico: anche con istruzioni chiare, l’AI può avere comportamenti inspiegabili. E questo è un problema serio in contesti dove la trasparenza è vitale, come la medicina: come potremmo fidarci di una diagnosi se non sappiamo su cosa si basa e se sappiamo che potrebbe prendere decisioni imprevedibili?
Il nodo è che, al momento, nemmeno le aziende sviluppatrici possono spiegare tutti i meccanismi e processi interni dell’AI. Come ha dichiarato il CEO di Anthropic, l’azienda che sviluppa Claude:
Non capiamo come funziona l’AI. […] Questa mancanza di comprensione è senza precedenti nella storia della tecnologia.
Cosa vuol dire che “non sappiamo come e perché funziona”
Chiariamolo subito: chi sviluppa modelli di AI ha ben chiaro com’è fatta la struttura del modello e come funzionano le sue componenti fondamentali, i neuroni artificiali. Quello che non si riesce a capire, ad ora, è come e perché le interazioni tra i neuroni portino a dei risultati funzionali.
Con i programmi tradizionali, ogni istruzione è scritta da un umano. Se cliccando un bottone su un programma compare un gattino, è perché qualcuno ha pensato che fosse una buona idea e ha programmato il codice per farlo. Con un modello di AI, invece, le azioni che può fare non sono programmate riga per riga, ma sono “apprese” durante la fase di allenamento. Il lavoro di chi progetta l’AI consiste nel creare la struttura nel modo migliore possibile, e poi fornire enormi quantità di testi, immagini, dati, così che all’interno del modello possano emergere i meccanismi che permettono di generare frasi, immagini, video.
Chris Olah, uno dei ricercatori più noti nel campo, propone una metafora efficace: i modelli di AI sono come colonie batteriche. Crei le condizioni perché possano crescere e svilupparsi, ma la struttura che ne emerge è in gran parte imprevedibile.
Se osserviamo un modello dall’interno, vediamo solo miliardi di numeri che interagiscono. In qualche modo, da queste interazioni nasce la capacità di tradurre frasi, scrivere testi o riassumere documenti, ma non è chiaro come lo facciano. Queste abilità, dette “capacità emergenti” (dall’inglese “emergent abilities”), non sono mai state codificate in maniera esplicita dagli umani, ma emergono naturalmente dall’allenamento del modello stesso.
Come risolvere il problema: una “risonanza magnetica” per l’AI
Per affrontare questo problema servono nuove tecniche di interpretabilità, cioè strumenti che ci permettano di capire perché l’AI prende una decisione invece di un’altra. Negli ultimi anni la ricerca ha fatto progressi importanti: si è riusciti a capire in quali aree dei modelli fossero presenti alcuni concetti, come si collegassero tra loro tracciando “circuiti” logici e perfino a usare l’AI stessa per spiegare i propri processi interni.
Questo, però, non è ancora abbastanza. L’obiettivo finale è arrivare a qualcosa di simile a una “risonanza magnetica per tutti i modelli di AI”: uno strumento che permetta di diagnosticare problemi come la tendenza a inventare informazioni, a ingannare o a prendere il controllo e, soprattutto, di capirne i meccanismi. Se riuscissimo a capire i meccanismi alla base delle capacità emergenti, soprattutto quelle negative, potremmo creare modelli sempre più potenti senza correre rischi.
Raggiungere questo obiettivo è una corsa contro il tempo: i modelli migliorano a una velocità impressionante, e rischiamo di avere sistemi potentissimi prima ancora di riuscire a capirli davvero. Fino a che non avremo una piena comprensione dei meccanismi dell’AI, consideriamola un po’ come il nostro stagista: affidiamole compiti che possiamo ricontrollare e non diamole accesso a materiali importanti.