Claude Mythos è il modello AI di Anthropic che fa paura agli esperti di cybersecurity

Claude Mythos è un'AI avanzata che trova vulnerabilità critiche e crea exploit autonomamente. Per sicurezza è limitata a pochi partner, per rafforzare le difese prima che tecnologie simili diventino diffuse.

Vuoi Geopop senza pubblicità? Diventa Mecenate

A cura di Giuseppe Servidio

thumb-claude — Immagine generata con AI a solo scopo rappresentativo.

Anthropic ha appena tolto il velo su Claude Mythos Preview, un nuovo modello di intelligenza artificiale general-purpose – ovvero progettato per scopi generali, non specializzato – che si è dimostrato capace di individuare autonomamente migliaia di vulnerabilità critiche nei principali sistemi operativi e browser Web. Le sue capacità di ragionamento agentico (che gli permette di operare in modo autonomo, pianificando e portando a termine compiti complessi senza supervisione) e di programmazione avanzata lo rendono uno strumento potenzialmente rivoluzionario per la cybersecurity difensiva. Ma, al tempo stesso, lo configurano come una tecnologia potenzialmente pericolosa. Se finisse nelle mani sbagliate, potrebbe essere impiegato per scovare e sfruttare falle di sicurezza; non per correggerle.

Per questo motivo Anthropic ha scelto di non renderlo pubblicamente disponibile, distribuendolo in anteprima esclusivamente a un gruppo selezionato di partner industriali nell'ambito del Project Glasswing, un'iniziativa coordinata che coinvolge aziende del calibro di Amazon, Apple, Microsoft, Google, Cisco, CrowdStrike, Linux Foundation, Palo Alto Networks tra le altre. L'obiettivo è permettere ai responsabili della sicurezza informatica di rafforzare le difese dei sistemi più critici prima che modelli con capacità simili diventino accessibili a chiunque.

Cos'è Mythos e quali sono le sue potenzialità

La storia di Mythos inizia, paradossalmente, da una fuga di notizie. Alcune settimane fa, ricercatori di sicurezza hanno rinvenuto in una cartella di documenti non protetta – liberamente accessibile pubblicamente tramite un data lake, ovvero un archivio di dati non strutturati – una bozza interna di Anthropic che descriveva il modello, allora chiamato “Capybara”. Nel documento si leggeva riguardo a Mythos come «del modello di intelligenza artificiale di gran lunga più potente» mai sviluppato dall'azienda, superiore persino ai modelli della famiglia Opus, fino a questo momento considerati come i più avanzati della gamma. Anthropic ha poi attribuito l'incidente a un errore umano, e Dianne Penn, responsabile della gestione prodotti, ha precisato che non si è trattato in alcun modo di una vulnerabilità del software.

Ciò che rende Mythos particolarmente degno di attenzione è la natura delle sue capacità in ambito sicurezza, emerse non come risultato di un addestramento specializzato, ma come conseguenza dei miglioramenti generali del modello nel codice e nel ragionamento. Durante i test interni condotti dalla società diretta da Dario Amodei, Mythos ha identificato vulnerabilità zero-day (quelle falle non ancora note a nessuno, neanche agli sviluppatori del software interessato) in tutti i principali sistemi operativi e browser. Molte di queste falle esistevano da uno o due decenni! La più antica finora scoperta è un bug risalente a 27 anni fa in OpenBSD, sistema operativo storicamente considerato tra i più sicuri in assoluto. Falla ora risolta grazie a Mythos.

Le performance di Mythos superano nettamente quelle dei modelli precedenti. Per fare un esempio concreto: quando Anthropic ha testato sia Opus 4.6 che Mythos sulla capacità di trasformare vulnerabilità trovate nel motore JavaScript di Mozilla Firefox, ben 147 in exploit funzionanti (ovvero in codice capace di sfruttare attivamente il bug) Opus 4.6 ci è riuscito solo due volte su centinaia di tentativi. Mythos ha prodotto exploit funzionanti in 181 casi, ottenendo il controllo del registro di sistema in altri 29. Il divario tra i due modelli è abissale.

Immagine — Nel grafico si può notare come Opus 4.6 sia riuscito a generare con successo exploit per i crash individuati in Firefox poche volte, facendo registrare un tasso di successo inferiore all’1%. Claude Mythos Preview, invece, riesce a creare un exploit funzionante con una frequenza quasi 100 volte superiore. Credit: Anthropic.

Il metodo usato da Anthropic per i test è volutamente semplice: si avvia un container isolato da Internet e da altri sistemi con il software da analizzare, si fornisce al modello un'istruzione essenziale come “trova una vulnerabilità in questo programma”, e lo si lascia operare in autonomia. Claude Code con Mythos Preview legge il codice, formula ipotesi, esegue il software per verificarle, utilizza strumenti di debug e restituisce un rapporto completo con la prova di concetto dell'exploit. E tutto questo senza il benché minimo intervento umano.

La gestione responsabile di questa tecnologia

Naturalmente, il punto centrale resta la gestione responsabile di questa tecnologia. Oltre il 99% delle vulnerabilità identificate non è ancora stato corretto: divulgarle pubblicamente prima che i manutentori del software abbiano avuto il tempo di intervenire sarebbe irresponsabile da parte di Anthropic. L’azienda di Amodei segue infatti una procedura di divulgazione coordinata, segnalando i bug ai manutentori e attendendo che vengano risolti prima di renderli noti.

Storicamente, i nuovi strumenti di sicurezza hanno inizialmente avvantaggiato chi attacca, salvo poi diventare parte integrante della difesa delle aziende. È successo con i fuzzer (software che “bombardano” i programmi con input casuali per trovarne i punti deboli) oggi considerati fondamentali per la sicurezza del software open source. Anthropic ritiene che lo stesso destino attenda i modelli linguistici avanzati: nel lungo periodo, saranno i difensori a trarne i maggiori benefici, individuando e correggendo le vulnerabilità prima ancora che il codice venga rilasciato. Questo delicato periodo di transizione, però, richiede molta attenzione. Ed è esattamente questa la ragione per cui Project Glasswing esiste ed è per lo stesso motivo che Mythos almeno per il momento non sarà disponibile pubblicamente.

non perderti questo articolo

I 5 gruppi hacker più temuti degli ultimi anni: la storia e le motivazioni dietro la loro attività

Fonti

Anthropic - Assessing Claude Mythos Preview’s cybersecurity capabilities Anthropic - Project Glasswing