;)
Veo 3 è finalmente arrivato anche in Italia, e la sua disponibilità rappresenta un punto di svolta nel campo della generazione video basata su intelligenza artificiale. Si tratta di un sistema sviluppato da Google DeepMind che consente di creare brevi clip video realistiche – della durata massima di 8 secondi – in cui le immagini in movimento sono perfettamente accompagnate da suoni ambientali, effetti audio e persino dialoghi sincronizzati con il labiale. L'innovazione principale portata da Veo 3 rispetto a Veo 2 e ai modelli dei competitors (come Sora di OpenAI) riguarda proprio l'integrazione nativa tra video e audio, che non richiede interventi successivi. Il modello riconosce input testuali (detti prompt), anche molto complessi, e genera video alquanto coerenti con la fisica del mondo reale.
Comunque, se da un lato offre possibilità creative senza precedenti, dall'altro solleva questioni etiche non trascurabili, come la diffusione di deepfake (contenuti falsificati e potenzialmente dannosi), già emersi su piattaforme social come TikTok. In questo approfondimento analizzeremo cosa può fare Veo 3, quanto costa e come usarlo.
Cosa può fare Veo 3
Con Veo 3 potete creare video brevi ma visivamente e sonoramente sofisticati, partendo semplicemente da una descrizione testuale. Questo strumento, alimentato da una sofisticata architettura di tipo diffusion-transformer riesce a interpretare scenari complessi e a restituire risultati sorprendentemente realistici.
A differenza del suo predecessore, Veo 2, la nuova versione del modello text-to-video di Google Deep Mind non si limita a generare immagini in movimento: aggiunge anche effetti sonori coerenti con l’ambiente, rumori di sottofondo e dialoghi. È capace di generare una voce sincronizzata con il movimento delle labbra, “sulla carta” pure in italiano (anche se dai test che abbiamo fatto per la scrittura di questo articolo non abbiamo avuto un ottimo riscontro per quanto riguarda quest'ultimo aspetto).
Il limite tecnico più rilevante? A quanto pare i gesti complessi delle mani e, più in generale, la fluidità dei movimenti da parte di umani in movimento non è ancora perfetta. L’intelligenza artificiale ancora fatica a rappresentare correttamente azioni come contare con le dita, probabilmente per la scarsa quantità di esempi simili nei dati usati per l’addestramento.
In ogni caso, se volete farvi un'idea dei risultati ottenibili con Veo 3, date un'occhiata al filmato generato con il seguente prompt testuale:
Due astronauti si trovano fuori dalla navicella spaziale che li ospita e uno dice all'altro: "È spaziale questo panorama". L'altro risponde: "Per forza, guarda dove siamo!". Entrambi poi si guardano e scoppiano in una fragorosa risata. In lontananza si vede il pianeta Terra e il sole. Non c'è alcuna melodia di sottofondo se non i dialoghi dei protagonisti. Il filmato dovrebbe avere un formato verticale, così da essere più adatto per i social.
In ogni caso, la capacità di comprendere e rispettare prompt narrativi articolati – dove si specificano dettagli come inquadrature, stili visivi, trame complesse, movimenti di camera, ecc. — rende Veo 3 particolarmente potente. Si comporta quasi come un “regista virtuale” pronto all'uso.
Un altro punto di forza del servizio è la padronanza delle leggi fisiche del mondo reale. Le simulazioni visive appaiono realistiche perché rispettano dinamiche naturali: dallo sfrigolio di una padella su cui viene adagiata della cipolla a una piuma che svolazza e termina la sua corsa intrappolata da una ragnatela, passando per un marinaio che parla mentre dondola su una barca e una tastiera fatta di caramelle gommose. Vi riportiamo questi esempi nei filmati seguenti, provenienti dal canale YouTube di Google DeepMind.
Veo 3: sicurezza e costi del generatore di video
Visto il livello di realismo che può essere raggiunto tramite Veo 3, il team di Google DeepMind ha preso alcune precauzioni per rendere l'uso del servizio più sicuro. In particolare, sui filmati prodotti con Veo 3 viene impresso un watermark digitale invisibile, chiamato SynthID, oltre a una filigrana visibile nell'angolo in basso a destra dei filmati generati con l'AI di Gemini. Dai primi riscontri online, però, pare che queste misure non impediscano del tutto la diffusione di video ingannevoli sui social, come dimostrano i recenti casi di clip razziste e false narrazioni virali che hanno fatto discutere, e non poco.
Veo 3 non è gratuito: per usufruire del servizio bisogna sottoscrivere l'abbonamento a Google AI Pro, il piano avanzato dell'intelligenza artificiale di Google, al costo di 21,99 euro al mese (con una versione di prova gratuita di un mese). Con questo piano è possibile generare fino a 3 video al giorno della durata massima di 8 secondi l'uno.
Per chi desidera una potenza ancora superiore, esiste anche il piano Google AI Ultra da 274,99 dollari al mese, disponibile però al momento solo in alcune regioni selezionate, dove Veo può essere controllato anche tramite immagini oltre che testo.
Come attivare e usare Veo 3
Per attivare e usare Veo 3 in Italia è sufficiente sottoscrivere l'abbonamento a Gemini AI Pro. Ecco i passaggi per riuscirci:
- Visitate la pagina principale di Veo.
- Fate click su Prova Veo e accedete al vostro account Google.
- Cliccate su Inizia > Abbonati a Google AI Pro > Abbonati.
- Completate il pagamento seguendo le istruzioni che vi vengono mostrate e cliccate su Vai a Gemini Pro.
- Nell'interfaccia di Gemini (da Gemini Web o dall'app di Gemini), selezionate la funzione Video (se non la vedete, cliccate prima sui tre puntini).
- Descrivete quanto più dettagliatamente possibile il filmato di output che vorreste ottenere con Veo 3, sfruttando il campo Descrivi il video.
- Attendete un paio di minuti e, una volta ultimata l'elaborazione del video, salvatelo cliccando sul simbolo della freccia in giù.
