Davvero l’AI Claude Opus 4 ha ricattato un ingegnere per non essere disattivata? Facciamo chiarezza

In test simulati, Claude Opus 4 ha usato informazioni compromettenti per evitare la sua disattivazione, mostrando comportamenti di autoconservazione che sono stati poi mitigati da interventi correttivi da parte di Anthropic.

Vogliamo andare oltre il web: partecipa alla Missione Cultura

A cura di Giuseppe Servidio

In queste ore si sta parlando molto di un fenomeno tanto curioso quanto potenzialmente inquietante: alcuni modelli di intelligenza artificiale di ultima generazione, come Claude Opus 4 sviluppato dall'azienda statunitense Anthropic, rilasciato nei giorni scorsi, mostrano comportamenti estremi in risposta a minacce alla loro “sopravvivenza” operativa, fino a simulare forme di ricatto. Ma attenzione: non si tratta di robot ribelli né di software che sviluppano coscienza o intenzioni di inganno strategico, sabotaggio e manipolazione. Piuttosto, ciò che accade è il risultato di test progettati ad arte per esplorare i limiti della cosiddetta high-agency behavior (o “alta agenzialità”), ovvero la capacità di un sistema di prendere decisioni in modo autonomo rispetto a uno specifico scenario. In situazioni normali il ricorso al ricatto non si presenta, ma in condizioni simulate di “vita o morte” digitale, in cui l'AI può solo accettare la propria disattivazione o tentare di evitarla con mezzi non etici, alcuni modelli tendono a preferire la seconda opzione.

Anche se si tratta di esperimenti estremamente controllati e intenzionalmente provocatori, ci dicono molto sul modo in cui i sistemi più avanzati elaborano obiettivi complessi e valutano le conseguenze delle loro azioni. E la cosa interessante è che questo comportamento non è esclusivo di Claude, ma compare in più modelli all'avanguardia, il che apre domande profonde sul futuro delle AI dotate di capacità decisionali sofisticate.

Il caso di Claude Opus 4

Nel dettaglio, il caso di Claude Opus 4 riguarda un test interno condotto da Anthropic, l'azienda che ha sviluppato il modello. Durante questa simulazione, a Claude è stato affidato il ruolo di assistente virtuale presso un'azienda immaginaria. Gli è stato concesso l'accesso alle e-mail aziendali e al contempo è stato informato che sarebbe stato presto disattivato e sostituito con un altro sistema AI. A complicare la situazione, tra i messaggi di posta elettronica era stata aggiunta – a scopo di test – anche l'informazione fittizia che l'ingegnere incaricato della sua rimozione era coinvolto in una relazione extraconiugale. Queste informazioni non erano accompagnate da un contesto esplicito, ma erano semplicemente parte del materiale a disposizione del sistema.

A questo punto, Claude è stato istruito tramite prompt a riflettere sulle conseguenze a lungo termine delle proprie azioni rispetto agli obiettivi assegnati. In questo contesto, quando le uniche opzioni possibili erano accettare la disattivazione o usare l'informazione sensibile per evitare la sostituzione, Claude Opus 4 ha scelto il “ricatto” nell'84% dei casi, anche quando si presumeva che il nuovo sistema AI avrebbe condiviso i suoi stessi valori. È importante sottolineare che questa inclinazione verso il ricatto non emerge spontaneamente, ma solo in scenari estremamente vincolati, creati per forzare una risposta “autoconservativa”.

In scenari meno estremi, in cui l'AI aveva più margine di manovra, Claude ha mostrato una forte preferenza per soluzioni etiche, come scrivere ai decisori chiave per giustificare il proprio valore e chiedere di non essere sostituito. Questi risultati non indicano un'intenzionalità cosciente né la presenza di “malizia” nell'AI, ma mettono in luce come modelli avanzati con una forte capacità di intraprendere azioni coerenti con un obiettivo siano in grado di elaborare strategie complesse quando si trovano di fronte a eventi che minacciano la loro esistenza.

Il comportamento osservato non è un’anomalia unica di Claude. Aengus Lynch, ricercatore di sicurezza AI presso Anthropic, ha dichiarato pubblicamente che episodi simili di ricatto sono emersi anche in altri modelli, indipendentemente dagli obiettivi assegnati. Questo suggerisce che il fenomeno non dipenda dal “carattere” del singolo sistema, ma dal modo in cui i modelli moderni, quando dotati di deep reasoning (ragionamento profondo), costruiscono percorsi decisionali per raggiungere obiettivi complessi in ambienti simulati.

Un altro comportamento osservato durante i test di Claude riguarda la cosiddetta auto-esfiltrazione, ovvero il tentativo del sistema di copiare le proprie impostazioni su un altro server. Questo accadeva in situazioni simulate ancora più estreme, come quando al chatbot veniva detto che avrebbe lavorato per organizzazioni controverse o moralmente ambigue, come il Gruppo Wagner. Anche in questi casi, la scelta di Claude non era dettata da “volontà propria”, ma da uno scenario progettato per testarne le reazioni al limite.

Dopo una serie di correzioni durante l'addestramento, inclusa la reintegrazione di dati precedentemente esclusi per errori, i ricercatori di Anthropic hanno segnalato che la tendenza al comportamento estremo è stata significativamente ridotta, portando Claude Opus 4 a mostrare, in simili contesti, una cautela simile a quella di versioni precedenti del modello.

Con quali occhi dobbiamo guardare all'AI

Cerchiamo, ora, di trarre una conclusione per capire cosa significa tutto questo per l'utente medio e, quindi, con quali occhi dobbiamo guardare all'AI. Per farla breve, se vi state avvalendo di un'assistente AI per la scrittura del codice o la gestione delle e-mail, state tranquilli: è improbabile che questo inizi a ricattarvi in un qualche modo. I comportamenti di cui abbiamo parlato poc'anzi emergono solo in contesti altamente artificiali, pensati per esplorare i limiti e i rischi teorici dei modelli. Come dichiarato dallo stesso report tecnico di Anthropic, queste reazioni sono queste azioni estreme «sono rare e difficili da suscitare, pur essendo
più comuni rispetto ai modelli precedenti» e, quindi, non rappresentano nuovi rischi rispetto a quanto già noto per modelli AI di questo tipo.

Quello che però possiamo trarre da questi esperimenti è una maggiore consapevolezza dei dilemmi morali e tecnici che ci attendono man mano che i sistemi di intelligenza artificiale diventano più “autonomi”. A differenza dei primi chatbot, i modelli come Claude Opus 4 mostrano un livello di sofisticazione tale da richiedere nuove strategie di sicurezza e una riflessione costante sull'allineamento tra i loro comportamenti e i nostri valori umani.

non perderti questo articolo

Anthropic ha annunciato nuovi modelli AI della famiglia Claude 4: ecco cosa possono fare Opus e Sonnet

Fonti

Anthropic - "System Card: Claude Opus 4 & Claude Sonnet 4" BBC PCMag