
Google ha rilasciato ufficialmente Gemini 3, un aggiornamento che segna un nuovo capitolo nella competizione per la supremazia nell'intelligenza artificiale, posizionandosi come diretta risposta ai recenti lanci di OpenAI e Anthropic. Stiamo parlando del modello più sofisticato mai realizzato dai laboratori di Mountain View, progettato non solo per chattare in forma testuale con l'utente ma per agire come «un vero e proprio partner di pensiero», per riprendere l'espressione usata da Google nel suo comunicato ufficiale. La grande novità risiede nella diversificazione dell'offerta: da un lato si ha Gemini 3 Pro, già disponibile, ottimizzato per la comprensione multimodale e la velocità; dall'altro arriverà a breve Gemini 3 Deep Think, una variante dotata di capacità di ragionamento profondo per risolvere problemi scientifici e matematici complessi. Analizziamo più da vicino le caratteristiche di Gemini 3.
Le caratteristiche dell'AI Gemini 3
Entrando nel vivo delle specifiche tecniche, dovete sapere che Gemini 3 Pro rappresenta un salto generazionale rispetto alla versione 2.5, superandola in ogni metrica significativa. Il modello ha raggiunto la vetta della classifica LMArena con un punteggio Elo di 1501 (un sistema di valutazione comparativa basato sulle preferenze umane), ma ciò che stupisce maggiormente è la sua performance in test accademici rigorosi. Nel benchmark Humanity's Last Exam, progettato per mettere alla prova il ragionamento di livello esperto, il modello ha ottenuto il 37,5% senza l'ausilio di strumenti esterni, distaccando i precedenti detentori del record. Traducendo i numeri dei benchmark in aspetti più concreti, tutto questo vale a dire che il nuovo modello di Google è in grado di gestire sfumature complesse, abbandonando le risposte piene di cliché e adulazioni tipiche dei chatbot precedenti in favore di un'analisi più diretta, fattuale e, se necessario, critica. La sua natura multimodale è stata ulteriormente raffinata: non si limita a leggere testi, ma è in grado anche di elaborare video, audio e immagini con una precisione inedita, come dimostra il punteggio dell'87,6% su Video-MMMU.
Per chi cerca prestazioni ancora più elevate, c'è la modalità Deep Think di Gemini 3, che sarà disponibile per gli abbonati al piano Ultra dopo ulteriori test di sicurezza. Progettata per “riflettere” prima di rispondere, questa modalità ha raggiunto risultati molto interessanti in diversi benchmark. Nel test ARC-AGI, che valuta la capacità di risolvere problemi mai visti prima, raggiunge il 45,1%, un valore che indica una capacità di astrazione e generalizzazione che inizia a simulare il pensiero umano deduttivo. Immaginate di poter fornire al modello intere lezioni video o complessi articoli accademici: Deep Think non si limiterà a riassumerli, ma potrà generare visualizzazioni dati, flashcard interattive o piani di studio personalizzati, agendo come una sorta di tutor universitario dedicato.
Google ha introdotto il concetto di vibe e agentic coding, una metodologia che permette di sviluppare software basandosi più sull'intenzione e sulla descrizione naturale che sulla sintassi rigida, affidando all'AI il compito di tradurre l'idea in codice funzionante. Per supportare questa visione è nata Google Antigravity, una piattaforma di sviluppo agentica di cui Google ha parlato in questi termini:
Google Antigravity trasforma l'assistenza AI da strumento nel toolkit di uno sviluppatore a partner attivo. Sebbene il cuore di Google Antigravity sia un'esperienza IDE AI familiare, i suoi agenti sono stati elevati a un'interfaccia dedicata e hanno ottenuto accesso diretto all'editor, al terminale e al browser. Ora gli agenti possono pianificare ed eseguire autonomamente attività software complesse ed end-to-end per vostro conto, convalidando al contempo il proprio codice.
Queste capacità agentiche, ovvero la facoltà dell'AI di agire come un ente autonomo che persegue un obiettivo, si estendono ben oltre la programmazione. Grazie a una migliore pianificazione a lungo termine, verificata dal benchmark Vending-Bench 2 (una simulazione complessa di gestione risorse), pare che Gemini 3 può gestire attività quotidiane articolate. Questo significa che, tanto per fare un esempio banale, sarà possibile delegargli la gestione della propria posta elettronica su Gmail, chiedendogli non solo di leggere, ma di organizzare e rispondere ai messaggi o, altro esempio, di pianificare itinerari di viaggio complessi incrociando dati provenienti da diverse fonti. L'obiettivo è quindi quello di spostare l'interazione dall'inserimento di un prompt alla delega di un compito complesso.
La questione di sicurezza e affidabilità del “modello più intelligente” di Google
Un aspetto che Google ha sottolineato con forza riguarda la sicurezza e l'affidabilità del modello. In un panorama dove le allucinazioni dell'AI sono ancora un problema, Gemini 3 ha mostrato progressi nel test SimpleQA Verified, raggiungendo un'accuratezza fattuale del 72,1%. Inoltre, il modello è stato addestrato per resistere meglio alla “prompt injection”, una tecnica utilizzata dai criminali informatici per ingannare l'AI e farle compiere azioni non previste (un tipo di attacco informatico sempre più insidioso), e anche per evitare la compiacenza, ovvero la tendenza dell'AI a confermare le opinioni dell'utente anche quando errate. Dal momento che tutti i test a cui abbiamo fatto riferimento sono stati eseguiti internamente da Google, bisognerà testare sul campo il nuovo Gemini 3 per vedere se al modello sono stati conferiti tutti i miglioramenti di cui abbiamo parlato che, almeno sulla carta, risultano essere alquanto succulenti.