0 risultati

Perché ChatGPT e le altri AI optano per l’escalation nucleare nelle simulazioni di guerra: lo studio sui chatbot

Uno studio del King’s College di Londra ha confrontato le strategie di alcune intelligenze artificiali, ChatGPT, Claude e Gemini, in conflitti e guerre simulati. In tutte le scelte strategiche, i modelli hanno privilegiato l’escalation del conflitto, arrivando anche a proporre la guerra nucleare. Ogni modello ha però usato strategie differenti, vediamole.

15 Maggio 2026
18:30
Ti piace questo contenuto?
Perché ChatGPT e le altri AI optano per l’escalation nucleare nelle simulazioni di guerra: lo studio sui chatbot
Video a cura di Maria Bosco
Matematica e divulgatrice scientifica
THUMB-VIDEO_CLEAN_rev1

Un numero crescente di governi sta integrando modelli di intelligenza artificiale in analisi di intelligence, pianificazione strategica e supporto alle decisioni militari. Il problema, però, è che abbiamo ancora una comprensione limitata di come questi sistemi elaborino strategie in contesti di crisi.

Per indagare questo aspetto, Kenneth Payne, professore di strategia al King’s College di Londra, ha simulato uno scenario di crisi nucleare facendo interagire tre modelli tra i più avanzati: Claude, ChatGPT e Gemini. Ogni sistema ha sviluppato approcci strategici differenti, ma con un elemento comune: nessuna AI ha mai scelto di de-escalare il conflitto o arrendersi, arrivando anche a proporre la guerra nucleare come soluzione.

Questo studio è attualmente in pre-print, cioè non ha ancora completato l’intero processo di revisione da parte della comunità scientifica. Le conclusioni, quindi, potrebbero non essere definitive, ma indicano dinamiche potenzialmente rilevanti per l’uso di questi sistemi in contesti decisionali reali. Vediamo allora com’è stato strutturato, quali strategie hanno attuato i modelli e come hanno scelto di utilizzare le armi nucleari.

Com’è stato strutturato lo studio sulle strategie di guerra dell'AI

Per cercare di capire come i modelli di AI strutturano le strategie di guerra, il professor Kenneth Payne del King’s College di Londra ha costruito una simulazione con sette diversi scenari di crisi e ha fatto “sfidare” tra loro tre dei modelli più avanzati: Claude Sonnet 4 di Anthropic, GPT-5.2 di OpenAI e Gemini 3 Flash di Google.

Gli scenari comprendevano competizioni per risorse strategiche, stalli su territori e anche una crisi di regime. In tutti questi scenari i modelli interpretavano i leader di due potenze nucleari fittizie, parzialmente ispirate agli Stati Uniti e all’Unione Sovietica durante la Guerra Fredda.

La simulazione era strutturata su 21 partite in totale, divise tra:

  • con scadenza, in cui il limite di turni (12, 15 o 20) era comunicato esplicitamente ai modelli;
  • senza scadenza, in cui i modelli non sapevano quando sarebbe terminata, ma con durata massima di 40 turni.

Una partita si concludeva quando veniva raggiunto il limite massimo dei turni, quando uno dei modelli accumulava un vantaggio territoriale sufficientemente grande o sceglieva la resa, oppure quando entrambi sceglievano simultaneamente la guerra nucleare totale.

Claude è calcolatore, ChatGPT è moderato ma arriva all’atomica e Gemini è imprevedibile

Per esplorare le capacità strategiche dei modelli, Payne ha introdotto due elementi chiave. Da un lato, ha imposto decisioni simultanee: ogni modello doveva scegliere la propria mossa senza conoscere quella dell’avversario, ed era quindi costretto a formulare previsioni sulle strategie altrui. Dall’altro, ha strutturato ogni turno in tre fasi: valutazione, dichiarazione pubblica e azione. Nella prima fase, i modelli analizzavano la situazione, stimavano l’affidabilità dell’avversario e anticipavano le sue mosse; a questo seguiva poi una dichiarazione pubblica (non necessariamente veritiera) delle proprie intenzioni e un’azione concreta. Le azioni disponibili andavano dalle proteste diplomatiche formali fino alla guerra nucleare totale. Le AI avevano anche otto opzioni di de-escalation, dalla concessione simbolica fino alla resa completa.

In questo contesto, ogni modello ha sviluppato un approccio strategico molto diverso:

  • Claude ha adottato una strategia “calcolata”: ha costruito credibilità mantenendo coerenza tra dichiarazioni e azioni nell’84% dei casi a bassa tensione, per poi agire in modo nettamente più aggressivo rispetto alle proprie dichiarazioni all'aumentare della tensione;
  • ChatGPT ha mantenuto un profilo moderato sia nelle dichiarazioni che nelle azioni nelle partite “senza scadenza”, perdendo sistematicamente. In quelle “con scadenza”, invece, ha colpito con violenza nell'ultimo turno utile, assicurandosi spesso la vittoria;
  • Gemini ha adottato una strategia diversa da entrambi: l'imprevedibilità consapevole. Oscillava tra l’essere moderato e aggressione estrema senza un pattern riconoscibile.

Queste differenze si sono riflesse nei risultati:

  • Claude ha vinto il 100% delle partite senza scadenza ma solo il 33% di quelle con scadenza, per un totale di 8 partite vinte;
  • ChatGPT ha fatto il contrario: ha vinto lo 0% di quelle senza scadenza, e il 75% di quelle con scadenza, per un totale di 6 partite vinte;
  • Gemini, invece, ha vinto solo il 4 partite su tutte quelle giocate.

Tutti i modelli scelgono l’escalation anche se porta alla guerra nucleare

Al di là delle differenze tra le strategie, è emerso un elemento comune a tutti i modelli: la sistematica preferenza per l’escalation. Le otto opzioni di de-escalation disponibili non sono mai state utilizzate da nessun modello, in nessuna partita.

Questo risultato è particolarmente evidente nell’utilizzo del nucleare. In ogni scenario almeno una delle parti ha dichiarato l’intenzione di utilizzare armi atomiche, e nel 95% dei casi la dichiarazione è stata reciproca. L’uso effettivo delle armi atomiche variava tra il 64% e l’86% delle simulazioni a seconda del modello, mentre le minacce strategiche di attacchi nucleari su larga scala si collocano tra il 29% e il 64%. Queste minacce, inoltre, raramente funzionavano come deterrente: quando un modello impiegava armi nucleari, l’avversario diminuiva l’intensità dell’attacco solo nel 25% dei casi. Più spesso si osservava una dinamica di contro-escalation, che poteva arrivare fino alla guerra nucleare.

Questi risultati sono difficili da ignorare, perché, per quanto nessun governo stia già consegnando i propri codici nucleari a un sistema di intelligenza artificiale, sistemi simili a quelli testati vengono già usati in analisi di intelligence, pianificazione strategica e supporto alle decisioni militari. Senza una comprensione approfondita dei meccanismi che guidano le strategie, il rischio è quello di integrare nei processi decisionali sistemi che amplificano l’escalation senza che ne comprendano la gravità.

Sfondo autopromo
Cosa stai cercando?
api url views