Durante l'evento Google I/O tenutosi ieri a Mountain View, Google ha annunciato varie novità interessanti per quanto riguarda il settore dell'intelligenza artificiale, aprendo il sipario su nuovi tool, tra cui Gemini 1.5 Flash, l’ultimo modello della famiglia Gemini che punta tutto su velocità ed efficienza. Il modello AI sarà integrato in Android 15 (la prossima versione del sistema operativo per dispositivi mobili di Google) con varie funzioni aggiuntive. Inoltre, “Big G” ha annunciato la disponibilità di Gemini 1.5 Pro in diversi mercati, compreso quello italiano. Tra le novità annunciate al Google I/O spicca anche Veo, la tecnologia text-to-video che “sfida” Sora di OpenAI.
Cosa può fare Gemini 1.5 Flash: novità e caratteristiche dell'AI di Google
Riguardo alle caratteristiche di Gemini 1.5 Flash, Google ha dichiarato che si tratta del modello più veloce disponibile tramite API (Application Programming Interface), ovvero l'insieme di “regole” che permette ad applicazioni diverse di comunicare tra di loro. Stando sempre a quanto affermato da Google «è ottimizzato per attività ad alto volume e ad alta frequenza su larga scala».
Gemini 1.5 Flash, inoltre, è dotato di ragionamento multimodale, quindi è funzionante tramite input testuali, vocali e visivi. Altro aspetto interessante, è dotato di un'innovativa finestra di contesto lunga fino a 1 milione di token, equivalenti a 10-11 ore di video o decine di migliaia di righe di codice. Una quantità impressionante di dati e informazioni!
Tutte queste caratteristiche permettono a Gemini 1.5 Flash di eccellere in diverse attività. Nel comunicato ufficiale Google, infatti, si legge:
Gemini 1.5 Flash eccelle nel riassumere, nelle applicazioni di chat, nei sottotitoli di immagini e video, nell'estrazione di dati da documenti e tabelle lunghi e altro ancora.
C'è da dire che lo strumento è pensato per gli sviluppatori che intendono basare i propri prodotti e servizi sfruttando l'AI di Google, e non per gli utenti “finali”.
Come funziona il nuovo Google Gemini Flash: l'addestramento per distillazione
Il “segreto” dietro l'ottimo rapporto leggerezza-potenza di Gemini Flash è il risultato del tipo di training con cui il modello è stato allenato. Google ha infatti optato per il cosiddetto addestramento per "distillazione". Come funziona? Per farla semplice, questo processo consiste nel trasferire le conoscenze e le competenze essenziali di un modello più grande (in questo caso specifico, Gemini 1.5 Pro) verso un modello più piccolo ed efficiente (in questo caso, Gemini 1.5 Flash).
Concettualmente è come se il modello più grande faccia da “insegnante” al modello più piccolo che, quindi, agirà da “studente”. Il modello addestrato e “distillato” difatti potrà fare le stesse cose del modello più grande, ma a un costo minore e con una latenza ridotta.
Quali sono le altre novità sull'AI annunciate al Google I/O
Oltre al lancio di Gemini 1.5 Flash, Google ha annunciato anche delle novità per quanto riguarda gli altri modelli che fanno parte del suo “pacchetto”. In particolare, Gemini 1.5 Pro ha migliorato le sue capacità di scrittura del codice, nonché l'analisi di tracce audio e immagini. Google prevede di migliorare ulteriormente il modello raddoppiando la finestra di contesto di Gemini 1.5 Pro (e, di riflesso, anche di 1.5 Flash) a 2 milioni di token. Quest'ultima novità sarà accessibile solo tramite l'iscrizione a un'apposita lista d’attesa. È stata annunciata inoltre l'immediata disponibilità di Gemini 1.5 Pro in 35 lingue, compresa quella italiana, in 150 Paesi per gli abbonati di Gemini Advanced (21 €/mese dopo una prova gratuita di 2 mesi).
In conclusione riassumiamo le altre novità annunciate durante la conferenza Google I/O.
- Ricerca Google basata sull'AI: tramite lo strumento AI Overviews la ricerca di Google diventa più efficace, in quanto le informazioni e le risposte alle proprie domande vengono sintetizzate e raggruppate in modo intelligente.
- VEO e Imagen 3: sono due strumenti di AI generativa che, rispettivamente, permettono di generare immagini e video (della durata superiore al minuto) ultra-realistici a partire da input testuali.
- Project Astra: è un assistente digitale in grado di elaborare testo, voce e immagini in tempo reale, in grado di capire il contesto, un po' come GPT-4o.
Qualora foste interessati ad approfondire ulteriormente le novità di cui vi abbiamo parlato, potete guardare la registrazione della conferenza (in inglese) tramite il seguente video.