Si chiama ChatGPT-4o (dove la “o” sta per “omni”) la nuova versione di ChatGPT annunciata ieri sera del modello di intelligenza artificiale di OpenAI, gratuito per tutti e in grado di accettare come input qualsiasi combinazione di testo, audio e immagini, riuscendo a sua volta a generare come output qualsiasi combinazione di testo, audio e immagini e riconsocere le emozioni in modo da restituire feedback più “veri” e meno artificiali. Le indiscrezioni prevedevano che all'evento tenutosi ieri da OpenAI fosse annunciato il tanto atteso motore di ricerca basato su ChatGPT, quindi ChatGPT-4o è stata una sorpresa.
Se paragonato al modello di precedente generazione – ovvero GPT-4.0 Turbo – GPT-4o è ben due volte più veloce ed efficiente dal punto di vista energetico. Questo ha consentito all'azienda di Sam Altman di abbattere i costi e renderlo fruibile a tutti gratuitamente (il rilascio globale pare che si concluderà gradualmente entro qualche settimana). Durante l'evento è stato annunciato anche un client desktop di ChatGPT per Mac e l'accesso gratuito al GPT Store (il negozio virtuale di OpenAI dove sono disponibili chatbot personalizzati dagli utenti, basati sullo stesso modello di ChatGPT).
Le nuove capacità di ChatGPT-4o
Secondo OpenAI il nuovo ChatGPT-40 costituisce «un passo avanti verso un'interazione uomo-computer molto più naturale». Essendo più potente rispetto al modello di precedente generazione, è in grado di rispondere agli input audio in appena 232 millisecondi, con una media di 320 millisecondi, equiparando praticamente i tempi umani di risposta in una conversazione "tipo".
Il nuovo modello, inoltre, ha limiti di frequenza cinque volti più alti rispetto alla generazione precedente, il che è un dato significativo considerando il fatto che questo parametro si riferisce alla frequenza con cui gli utenti possono avanzare richieste di vario genere.
Ma all'atto pratico cosa permette di fare il nuovo modello GPT-4o su cui si basa ChatGPT? A giudicare dalla presentazione (di cui vi riproponiamo la replica qui sotto), sa fare un'infinità di cose. La demo molto dettagliata – e a tratti anche divertente – realizzata dal team di OpenAI capeggiato da Mira Murati, Chief Technology Officer di OpenAI, ha evidenziato la capacità di GPT-4o di interpretare le espressioni facciali e le emozioni leggendole dalla fotocamera o dai microfoni dei propri dispositivi mobili. Non solo: il modello riesce anche ad adattare le proprie risposte e il tono dei feedback vocali in funzione delle emozioni che caratterizzano la conversazione con l'utente.
Nella dimostrazione, per esempio, ChatGPT-4o ha aggiunto effetti sonori alle proprie risposte vocali (come risatine ed effetti di stupore) oppure ha modificato il tono di voce per adattarsi all'andamento della conversazione, il tutto in modo piuttosto rapido e veloce.
La rapidità di risposta sembra che sia una caratteristica anche di altre lingue, come quella italiana, che è stata presa in "prestito" dalla Murati per un test di traduzione in tempo reale. Il modello, infatti, supporta 50 lingue andando a coprire così il 97% della popolazione globale.
Il modello si è dimostrato anche perfettamente in grado di riconoscere elementi presenti sullo schermo condiviso dall'utente o simboli scritti a mano su un foglio di carta per offrire soluzioni risolutive a vari problemi (come un'equazione ad esempio).
I possibili rischi di ChatGPT-4o
Un modello AI così prestante, potente ed efficiente da una parte suscita inevitabilmente grande entusiasmo, dall'altra può destare non poca preoccupazione a causa dei potenziali usi impropri di ChatGPT-4o. Proprio riguardo ai possibili rischi derivanti dalla nascita della sua nuova "creatura", in una nota ufficiale OpenAI ha dichiarato:
Siamo consapevoli che le modalità audio del GPT-4o presentano una serie di rischi inediti. Oggi stiamo rilasciando pubblicamente gli input e gli output di testo e immagine. Nelle prossime settimane e mesi, lavoreremo sull'infrastruttura tecnica, sull'usabilità attraverso il post-training e sulla sicurezza necessaria per rilasciare le altre modalità. Ad esempio, al momento del lancio, le uscite audio saranno limitate a una selezione di voci preimpostate e rispetteranno le nostre politiche di sicurezza esistenti. Condivideremo ulteriori dettagli sull'intera gamma di modalità del GPT-4o nella prossima scheda di sistema.
OpenAI ha affermato, comunque, che prima di annunciare GPT-4o ha eseguito tutti i test del caso proprio per appurare la sua sicurezza. Lo ha fatto tramite una serie di valutazioni automatiche e umane eseguite durante l'intero processo di training del modello, coinvolgendo anche 70 esperti esterni specializzati in vari settori.