Google ha lanciato a sorpresa il nuovo Large Language Model (LLM) Gemini 1.0, un modello di intelligenza artificiale in grado di lavorare con testi, immagini e video e destinato a fungere da “cervello” per Google Bard, il chatbot realizzato dal colosso di Mountain View. Gemini è stato introdotto, nella sua versione più leggera, in Google Bard in lingua inglese in oltre 170 Paesi e sta già cominciando a far parlare di sé in quanto, stando a Google, le prestazioni di Gemini supererebbero quelle di GPT-4 di OpenAI, su cui si basa ChatGPT. Può può comprendere, operare e combinare senza discontinuità diversi tipi di informazione.
Cosa potrà fare Google Gemini
Un video rilasciato da Google mostra che Gemini è in grado di riconoscere cosa stiamo disegnando, di che materiale è fatto un oggetto, districarsi tra diverse lingue, suggerire un gioco sulla base di quello che gli stiamo mostrando e riconoscere a quale gioco stiamo giocando, confrontare oggetti in base al loro aspetto e alla loro funzione, valutare la scelta migliore in base a una situazione mostrata, prevedere cosa accadrà in un video ecc. I risultati sembrano in effetti davvero notevoli.
Cos'è Gemini 1.0
Gemini 1.0 è il nome della prima generazione del LLM Gemini sviluppato da Google, quest'ultimo andrà a soppiantare PaLM 2. Fungerà, come detto, da LLM, pertanto non è da confondere con il chatbot che utilizzerà tale modello (in questo caso Google Bard). Il chatbot, infatti, è il prodotto che viene sviluppato e con cui l'utente si interfaccia, mentre il LLM rappresenta il modello linguistico, ovvero il “cervello” di tale chatbot, che definisce di conseguenza le prestazioni e l'accuratezza dimostrata dal chatbot stesso.
Le tre versioni di Gemini
Gemini è stato lanciato in tre diversi formati: Gemini Ultra, Gemini Pro e Gemini Nano, le tre varianti del LLM differiscono per capacità di risoluzione dei compiti assegnati, compatibilità con i dispositivi mobili e tempo necessario ad accuratezza di risposta.
Gemini Ultra
Gemini Ultra è il modello più avanzato tra quelli presentati, si tratta del più grande e complesso dei tre modelli che, stando ai dati esposti da Google, sarebbe in grado di superare le performance esposte dal modello più avanzato sviluppato da OpenAI GPT4. Quest'ultimo modello è stato testato da Google anche nei confronti delle performance espresse da esperti umani. Questi test vengono chiamati MMLU (Massive Multitask Language Understanding) e si basano su 57 materie come matematica, fisica, storia o diritto: i risultati del test hanno evidenziato come Gemini Ultra ha superato i risultati ottenuti dagli esperti umani.
Gemini Ultra sarà disponibile dal 2024, anche se la data esatta di lancio non è stata ancora ufficializzata.
Gemini Pro
Gemini Pro verrà invece implementato dal 13 dicembre in versione beta in Google Bard, per poi passare nelle settimane seguenti in altri prodotti Google come Search, Ads, Chrome e Duet AI. L'aggiornamento sarà disponibili per sviluppatori e aziende.
Riguardo le performance di Gemini Pro nel comunicato ufficiale di Google è possibile leggere:
Prima di renderlo pubblico, abbiamo testato Gemini Pro attraverso una serie di benchmark standard del settore. In sei benchmark su otto, Gemini Pro ha sovraperformato GPT-3.5 , incluso MMLU (Massive Multitask Language Understanding), uno degli standard principali per la misurazione di grandi modelli di intelligenza artificiale
Gemini Nano
Gemini Nano è il modello più piccolo dei tre, pensato per essere implementato all'interno di dispositivi mobili. In particolare è stato ufficializzato da parte di Google l'approdo di Gemini Nano sul dispositivo top di gamma presentato di recente dall'azienda di Mountain View ovvero lo smartphone Pixel 8 Pro.
L'approdo di Nano sugli smartphone a marchio Google conferma, ancora una volta, la volontà di Google di spingere gli aspetti legati all'Intelligenza Artificiale su smartphone a conferma di quanto già intrapreso dal 2021 con il System on Chip (SoC) Google Tensor sugli smartphone Google Pixel fortemente incentrati sulle potenzialità di Intelligenza Artificiale.
Le novità introdotte e il confronto con GPT
Gemini consentirà al chatbot di Google di esprimere potenzialità di gran lunga superiori a quelle attuali. Grazie a Gemini Ultra, infatti, potrà comprendere meglio il linguaggio umano e, di conseguenza, le richieste da parte degli utenti, inoltre, sarà in grado di riconoscere ed analizzare formati audio, immagini e video.
La natura multimodale espressa da Gemini è l'elemento caratterizzante che lo differenzia dalla soluzione analoga di OpenAI, grazie all'analisi di audio, immagini e video sarà possibile porre quesiti complessi al chatbot di Google riguardante ciò che è raffigurato nella foto o nel video.
Google ha voluto poi confrontare le performance dei modelli Gemini con quelle di GPT ed ha pubblicato dei risultati che evidenziano come il nuovo LLM esprima capacità migliorative rispetto all'LLM sviluppato da OpenAI, riportiamo di seguito parte dei risultati:
Confronto tra i modelli Gemini
Fonte: Report Gemini.
Benchmark accademici
Comprensione di immagini
Come posso provare Gemini?
Al momento Google Gemini è distribuito solamente in versione Nano su Google Bard in lingua inglese per Pixel 8 Pro. Sviluppatori e aziende potranno provare la beta della versione Pro a partire dal 13 dicembre. Questo significa che il LLM potrà lavorare solo su prompt di testi. Per poter provare la versione più avanzata, in grado di interagire anche con video e immagini, bisognerà aspettare il rilascio della versione Ultra nel 2024. Sperando che la versione italiana non si faccia attendere troppo rispetto a quella inglese!