Perché ChatGPT si è “fissato” con goblin e troll: OpenAI è intervenuta per correggere il problema

Dopo il rilascio di GPT-5.1, ChatGPT ha iniziato a citare goblin e altre creature simili fuori contesto. Il problema era legato alla modalità “Nerdy”, che nel reinforcement learning premiava queste metafore.

Vuoi Geopop senza pubblicità? Diventa Mecenate

A cura di Giuseppe Servidio

Immagine generata con l’AI a puro scopo illustrativo.

ChatGPT ha sviluppato un'insolita ossessione per goblin, gremlin, procioni, troll e orchi, iniziando a inserire questi riferimenti nelle proprie risposte con una frequenza insolita facendo riferimento a queste figure in molti casi citandole fuori contesto. Il problema è emerso chiaramente dopo il lancio di GPT-5.1, a novembre scorso. Gli utenti avevano segnalato che il modello sembrava stranamente eccessivo nel tono, quasi troppo confidenziale. Questo ha spinto il team a esaminare specifici pattern linguistici nelle risposte. Un ricercatore ha chiesto di includere nell'analisi le parole “goblin” e “gremlin”, e secondo un'analisi interna descritta da OpenAI, i dati hanno rivelato qualcosa di sorprendente: l'uso del primo termine era aumentato del 175% rispetto al periodo precedente al lancio, mentre l'uso del secondo aveva registrato un incremento del 52%. Cerchiamo di capire perché ChatGPT si è fissato con goblin e troll e, soprattutto, come OpenAI ha risolto il problema.

La fissazione di ChatGPT per i goblin: le cause

La causa per cui ChatGPT si è fissato con goblin e altre figure simili è stata ricondotta a una funzionalità di personalizzazione del chatbot chiamata “Nerdy”, una delle opzioni che permetteva agli utenti di modificare lo stile e il tono delle risposte. Il messaggio di sistema associato a questa personalità invitava il modello a riconoscere la “stranezza” del mondo e ad affrontare i temi con leggerezza, evitando l'auto-seriosità. Durante l'addestramento tramite reinforcement learning, ovvero l'apprendimento per rinforzo, una tecnica in cui il modello viene guidato da segnali di “premio” o “penalità” in base alla qualità percepita delle risposte, alcuni segnali di ricompensa hanno finito per favorire risposte con metafore legate a creature fantastiche. Nel 76,2% dei dataset analizzati, le risposte contenenti i termini “goblin” o “gremlin” ricevevano valutazioni sistematicamente migliori rispetto a quelle equivalenti senza quei termini.

Il risultato? La personalità “Nerdy”, che rappresentava solo il 2,5% delle risposte totali di ChatGPT, era responsabile del 66,7% di tutte le menzioni di “goblin”. Questo ha portato a un aumento del 3881,4% dell'uso di questo termine, come evidenziato nel seguente grafico.

Ma il fenomeno non si è fermato lì. Il reinforcement learning non garantisce l'isolamento comportamentale: un pattern premiato in un contesto può propagarsi ad altri, soprattutto quando entra nei dataset di fine-tuning. Questo è proprio ciò che è successo: i goblin si sono moltiplicati ben oltre la personalità che li aveva originati.

Come OpenAI ha risolto il problema

Per risolvere il problema, OpenAI ha ritirato la personalità “Nerdy” a marzo e ha eliminato il segnale di ricompensa responsabile del problema, filtrando anche i dati di addestramento contenenti riferimenti alle creature. GPT-5.5, però, aveva già iniziato il suo ciclo di addestramento prima che la causa fosse identificata. Per questo, nell'ambiente di programmazione Codex, è stata inserita un'istruzione esplicita che impedisce al modello di menzionare goblin, gremlin, procioni, troll, orchi, piccioni o altre creature, a meno che non siano strettamente pertinenti alla richiesta.

Questa vicenda illustra una delle sfide più sottili nello sviluppo dei modelli linguistici: anche un singolo segnale di ricompensa mal calibrato può innescare un circolo vizioso in cui un comportamento viene premiato, si generalizza, si trasferisce e si amplifica. Comprenderlo in tempo, sviluppare gli strumenti per identificarlo e correggerlo alla radice è, secondo OpenAI stessa, una competenza fondamentale per chiunque lavori in questo campo.

non perderti questo articolo

I piccioni apprendono in modo simile all’intelligenza artificiale: lo studio

Fonti

BBC Engadget OpenAI