video suggerito

7 Dicembre 2023

17:52

Google lancia Gemini e sfida GPT-4: cosa potrà fare il nuovo modello di intelligenza artificiale

Google ha lanciato Gemini, un nuovo modello di intelligenza artificiale multimodale che promette di superare le performance di GPT-4. Verrà implementato su Google Bard. Vediamo cosa potrà fare, il confronto con il rivale di OpenAI e come provarlo.

Da oggi puoi supportare la Missione Cultura di Geopop

A cura di Gabriele Di Flavio

Immagine — Un fotogramma del video di presentazione di Google Gemini. Credits: Google.

Google ha lanciato a sorpresa il nuovo Large Language Model (LLM) Gemini 1.0, un modello di intelligenza artificiale in grado di lavorare con testi, immagini e video e destinato a fungere da “cervello” per Google Bard, il chatbot realizzato dal colosso di Mountain View. Gemini è stato introdotto, nella sua versione più leggera, in Google Bard in lingua inglese in oltre 170 Paesi e sta già cominciando a far parlare di sé in quanto, stando a Google, le prestazioni di Gemini supererebbero quelle di GPT-4 di OpenAI, su cui si basa ChatGPT. Può può comprendere, operare e combinare senza discontinuità diversi tipi di informazione.

GOOGLE GEMINI

1Cosa potrà fare Google Gemini
2Cos'è Gemini 1.0
3Le tre versioni di Gemini
4Le novità introdotte ed il confronto con GPT
5Come posso provare Gemini?

Cosa potrà fare Google Gemini

Un video rilasciato da Google mostra che Gemini è in grado di riconoscere cosa stiamo disegnando, di che materiale è fatto un oggetto, districarsi tra diverse lingue, suggerire un gioco sulla base di quello che gli stiamo mostrando e riconoscere a quale gioco stiamo giocando, confrontare oggetti in base al loro aspetto e alla loro funzione, valutare la scelta migliore in base a una situazione mostrata, prevedere cosa accadrà in un video ecc. I risultati sembrano in effetti davvero notevoli.

Cos'è Gemini 1.0

Gemini 1.0 è il nome della prima generazione del LLM Gemini sviluppato da Google, quest'ultimo andrà a soppiantare PaLM 2. Fungerà, come detto, da LLM, pertanto non è da confondere con il chatbot che utilizzerà tale modello (in questo caso Google Bard). Il chatbot, infatti, è il prodotto che viene sviluppato e con cui l'utente si interfaccia, mentre il LLM rappresenta il modello linguistico, ovvero il “cervello” di tale chatbot, che definisce di conseguenza le prestazioni e l'accuratezza dimostrata dal chatbot stesso.

non perderti questo articolo

L’app di Google Gemini è ufficialmente disponibile in Italia: cosa si potrà fare

Le tre versioni di Gemini

Gemini è stato lanciato in tre diversi formati: Gemini Ultra, Gemini Pro e Gemini Nano, le tre varianti del LLM differiscono per capacità di risoluzione dei compiti assegnati, compatibilità con i dispositivi mobili e tempo necessario ad accuratezza di risposta.

Gemini Ultra

Gemini Ultra è il modello più avanzato tra quelli presentati, si tratta del più grande e complesso dei tre modelli che, stando ai dati esposti da Google, sarebbe in grado di superare le performance esposte dal modello più avanzato sviluppato da OpenAI GPT4. Quest'ultimo modello è stato testato da Google anche nei confronti delle performance espresse da esperti umani. Questi test vengono chiamati MMLU (Massive Multitask Language Understanding) e si basano su 57 materie come matematica, fisica, storia o diritto: i risultati del test hanno evidenziato come Gemini Ultra ha superato i risultati ottenuti dagli esperti umani.

Gemini Ultra sarà disponibile dal 2024, anche se la data esatta di lancio non è stata ancora ufficializzata.

Gemini Pro

Gemini Pro verrà invece implementato dal 13 dicembre in versione beta in Google Bard, per poi passare nelle settimane seguenti in altri prodotti Google come Search, Ads, Chrome e Duet AI. L'aggiornamento sarà disponibili per sviluppatori e aziende.

Riguardo le performance di Gemini Pro nel comunicato ufficiale di Google è possibile leggere:

Prima di renderlo pubblico, abbiamo testato Gemini Pro attraverso una serie di benchmark standard del settore. In sei benchmark su otto, Gemini Pro ha sovraperformato GPT-3.5 , incluso MMLU (Massive Multitask Language Understanding), uno degli standard principali per la misurazione di grandi modelli di intelligenza artificiale

Gemini Nano

Gemini Nano è il modello più piccolo dei tre, pensato per essere implementato all'interno di dispositivi mobili. In particolare è stato ufficializzato da parte di Google l'approdo di Gemini Nano sul dispositivo top di gamma presentato di recente dall'azienda di Mountain View ovvero lo smartphone Pixel 8 Pro.

L'approdo di Nano sugli smartphone a marchio Google conferma, ancora una volta, la volontà di Google di spingere gli aspetti legati all'Intelligenza Artificiale su smartphone a conferma di quanto già intrapreso dal 2021 con il System on Chip (SoC) Google Tensor sugli smartphone Google Pixel fortemente incentrati sulle potenzialità di Intelligenza Artificiale.

Le novità introdotte e il confronto con GPT

Gemini consentirà al chatbot di Google di esprimere potenzialità di gran lunga superiori a quelle attuali. Grazie a Gemini Ultra, infatti, potrà comprendere meglio il linguaggio umano e, di conseguenza, le richieste da parte degli utenti, inoltre, sarà in grado di riconoscere ed analizzare formati audio, immagini e video.

La natura multimodale espressa da Gemini è l'elemento caratterizzante che lo differenzia dalla soluzione analoga di OpenAI, grazie all'analisi di audio, immagini e video sarà possibile porre quesiti complessi al chatbot di Google riguardante ciò che è raffigurato nella foto o nel video.

Google ha voluto poi confrontare le performance dei modelli Gemini con quelle di GPT ed ha pubblicato dei risultati che evidenziano come il nuovo LLM esprima capacità migliorative rispetto all'LLM sviluppato da OpenAI, riportiamo di seguito parte dei risultati:

Confronto tra i modelli Gemini

Fonte: Report Gemini.

Benchmark accademici

Comprensione di immagini

Come posso provare Gemini?

Al momento Google Gemini è distribuito solamente in versione Nano su Google Bard in lingua inglese per Pixel 8 Pro. Sviluppatori e aziende potranno provare la beta della versione Pro a partire dal 13 dicembre. Questo significa che il LLM potrà lavorare solo su prompt di testi. Per poter provare la versione più avanzata, in grado di interagire anche con video e immagini, bisognerà aspettare il rilascio della versione Ultra nel 2024. Sperando che la versione italiana non si faccia attendere troppo rispetto a quella inglese!

Fonti

Google - Sito Ufficiale Gemini Blog Google - Gemini Gemini Pro e Ultra Google Bard Technical Report - Confronto Gemini 1.0 vs GPT4