;Resize,width=638;)
Novità in casa OpenAI: l'azienda che sviluppa ChatGPT e Sora ha ufficialmente annunciato il lancio nel futuro prossimo di due nuovi e potentissimi modelli AI, GPT-o3 e GPT-o3-mini, rispettivamente i successori dei modelli o1 e o1-mini rilasciati a inizio anno. L'idea di OpenAI è lanciare o3-mini entro la fine di gennaio e più tardi mettere a disposizione anche il modello o3.Stando a quanto dichiarato dall'azienda diretta da Sam Altman, il modello o3, almeno in certe condizioni, si avvicina al concetto di AGI (Artificial General Intelligence): con questa sigla ci riferiamo a una sorta di “super intelligenza artificiale” capace di avere capacità di ragionamento elevatissime, ben superiori ai modelli AI “tradizionali”.
I modelli sono stati addestrati usando la tecnica dell'apprendimento con rinforzo reinforcement learning, che permette all'algoritmo di “ragionare” prima di fornire la risposta più accurata. Al momento né o3 né o3-mini sono ancora disponibili su larga scala, in quanto riservati ai ricercatori di sicurezza, che possono registrarsi per testarne in anteprima la loro sicurezza.
Cosa possono fare i nuovi modelli AI o3 e o3-mini: caratteristiche e funzionalità
Rispetto al modello precedente, o3 introduce una migliore capacità di verifica dei fatti, una regolazione del tempo di ragionamento e un netto miglioramento in ambiti d'uso riguardanti campi come la matematica, la scienza, la fisica e la scrittura di codice. Tuttavia, questa potenza computazionale richiede un costo elevato in termini di risorse che provoca una certa latenza, rendendo il modello più adatto a compiti complessi piuttosto che a usi generici.
ChatGPT o3 rappresenta un’evoluzione nel panorama dell’intelligenza artificiale per il suo approccio orientato al ragionamento. Il modello è infatti in grado di “ragionare” prima di rispondere, elaborando una catena di pensiero che analizza un problema da diverse prospettive. Questo processo non solo migliora l’affidabilità degli output, ma consente al modello di affrontare problemi complessi con una precisione maggiore rispetto ai modelli “tradizionali”. Basti pensare, ad esempio, che nessun modello supera il 2% dei problemi matematici con il test Frontier Math di EpochAI, mentre o3 è stato in grado di raggiungere il 25,2%.

A differenza dei suoi predecessori, inoltre, o3 offre infatti la possibilità di “regolare” il tempo dedicato al ragionamento: un tempo maggiore comporta prestazioni migliori, sebbene aumenti la latenza. Questa caratteristica conferisce a o3 maggiore versatilità e lo distingue significativamente da GPT-o1, che non aveva questo tipo di controllo.
La versione o3-mini, invece, rappresenta una variante più compatta e specifica per compiti mirati. Sebbene meno potente di o3, è progettata per garantire un equilibrio tra efficienza e prestazioni, il che la rende adatta a essere adoperata in contesti in cui le risorse computazionali sono limitate. Questa distinzione tra i due modelli evidenzia la strategia di OpenAI di diversificare le applicazioni dell’intelligenza artificiale, rendendola accessibile a diversi tipi di utenti e scenari operativi.
Un altro elemento chiave dei nuovi modelli o3 riguarda la capacità di verificare i fatti, riducendo così il rischio delle cosiddette “allucinazioni” dell’intelligenza artificiale, ovvero risposte apparentemente coerenti ma difatti sbagliate. Questa verifica, che non elimina del tutto il rischio di allucinazioni (questo sia ben chiaro), ha un costo: il modello impiega più tempo a fornire una risposta rispetto ai modelli che non integrano il ragionamento. Nonostante ciò, i test iniziali mostrano che o3 è straordinariamente performante nei benchmark matematici e scientifici, superando di gran lunga il suo predecessore e stabilendo nuovi standard nel settore.
Perché i nuovi modelli GPT ci portano più vicino all’AGI
L’obiettivo di OpenAI è chiaramente quello di avvicinarsi sempre più velocemente all’AGI, una tecnologia in grado di svolgere qualsiasi compito umano con un livello di autonomia e competenza paragonabile, o superiore, al nostro. Il modello o3 ha già ottenuto punteggi notevoli su ARC-AGI, un test progettato per valutare la capacità di un sistema AI di acquisire in modo efficiente nuove competenze al di fuori dei dati su cui è stato addestrato. Ebbene, o3 ha ottenuto un punteggio dell'87,5% nell'impostazione di calcolo elevato e, nel peggiore degli scenari, il modello ha triplicato le prestazioni di o1 (come evidenzia il seguente grafico). Davvero niente male!

Tuttavia, come sottolineato da François Chollet, ideatore del benchmark ARC-AGI, o3 fa fatica nei compiti semplici per gli esseri umani, suggerendo che siamo ancora relativamente lontani dall’AGI. Chollet, nella fattispecie, ha dichiarato:
I primi dati suggeriscono che il prossimo benchmark [successore dell'ARC-AGI, NdR] rappresenterà ancora una sfida significativa per o3, riducendo potenzialmente il suo punteggio a meno del 30% anche con un calcolo elevato (mentre un essere umano intelligente sarebbe comunque in grado di ottenere un punteggio superiore al 95% senza formazione) […] Sapremo che AGI è realtà quando la possibilità di creare attività che sono facili per gli esseri umani normali ma difficili per l'AI diventerà semplicemente impossibile.
Che fine ha fatto GPT-o2?
Concludiamo l'approfondimento con una domanda che i più attenti di voi si saranno già posti. Che fine ha fatto GPT-o2? Perché OpenAI ha "saltato" questo modello passando da GPT-o1 a GPT-o3? Stando a quanto affermato da The Information, OpenAI ha scartato l'uso della sigla “o2” per evitare possibili problemi legali con il provider di telecomunicazioni britannico O2.