video suggerito

22 Aprile 2024

15:30

Cos’è VASA-1, la nuova IA di Microsoft che ha animato la Gioconda in video da una sola foto

Microsoft ha appena annunciato VASA-1, un nuovo modello AI che genera deepfake realistici animando una foto sulla base di un clip audio.

Entra nel nuovo canale WhatsApp di Geopop

A cura di Giuseppe Servidio

Un team di ricercatori di Microsoft Research Asia, uno dei laboratori di ricerca del colosso tecnologico fondato da Bill Gates, ha annunciato VASA-1, un nuovo modello di intelligenza artificiale capace di generare video deepfake molto realistici partendo da una singola foto e da un audio. Visto l'elevato grado di realismo ottenibile con questa tecnologia, le sue potenzialità d'utilizzo sono pressoché infinite, così come le preoccupazioni etiche e morali che questo genere di soluzioni solitamente porta con sé. È con questi stessi timori, infatti, che altri modelli AI sono stati accolti negli scorsi mesi, tra cui Sora e Voice Engine di OpenAI o, ancora più recentemente, la funzione di TikTok per generare la voce partendo da un semplice clip audio.

I video incredibili realizzati con VASA-1

Una delle clip realizzate con VASA-1 che ha attirato maggiormente l'attenzione mostra la Gioconda esibirsi in un rap molto realistico:

Nella pagina ufficiale del progetto troviamo poi alcuni video di persone che parlano con una sincronizzazione del labiale praticamente perfetta e una notevole gamma di espressioni facciali coerenti con il contenuto dell'audio:

Come funziona VASA-1, la nuova AI di Microsoft che crea video deepfake

Un aspetto realmente incredibile di VASA-1 riguarda il fatto che questo modello, non solo è in grado di produrre movimenti labiali perfettamente in sincrono con la traccia audio, ma permette di replicare uno spettro piuttosto ampio di espressioni facciali tramite movimenti alquanto realistici della testa che conferiscono un tocco di vivacità e autenticità ai soggetti che vengono dati "in pasto" all'algoritmo.

Ma come fa VASA-1 a generare deepfake da una semplice foto e da un solo file audio? Nel paper diffuso dal team di ricercatori Microsoft che ha lavorato al progetto, si legge:

Le innovazioni principali comprendono un modello olistico di dinamica facciale e di generazione dei movimenti della testa basato sulla diffusione, che opera in uno spazio latente del volto, e lo sviluppo di uno spazio latente del volto espressivo e distinto utilizzando i video. Attraverso esperimenti approfonditi, tra cui la valutazione di una serie di nuove metriche, dimostriamo che il nostro metodo supera in modo significativo quelli precedenti su varie dimensioni.

VASA-1 | Geopop — Data una singola immagine ritratto, un clip audio del parlato e, a scelta, una serie di altri segnali di controllo, VASA–1 produce deepfake di alta qualità con una risoluzione di 512×512 fino a 40 fps. Credits: Microsoft.

Per "ridurre all'osso" la spiegazione tecnica che si legge nell'abstract, tramite tutta una serie di calcoli complessi, l'algoritmo di VASA-1 va a fondere l'immagine "di partenza" con la traccia audio disponibile ed, eventualmente, anche con alcuni parametri relativi all'espressività umana, così da conferire al soggetto la giusta espressività. Questo permette di conferire ai video di output che vengono generati con VASA-1 le seguenti caratteristiche.

Realismo e vivacità: i video generati con VASA-1 non rimangono "fissi" con la faccia totalmente ferma, ma si staccano dallo sfondo muovendo il capo e muovendosi in modo piuttosto naturale.
Controllo sulla generazione: è possibile far guardare i volti in direzioni specifiche, ridimensionarli e far trasmettere loro emozioni specifiche. Il modello, inoltre, consente di modificare individualmente l'aspetto di un viso, la posa della testa 3D e le espressioni facciali.
Capacità di creare contenuti di vario genere: Microsoft VASA-1 riesce a generare anche contenuti artistici, mostrando ad esempio soggetti che cantano o che parlano in altre lingue, pur non essendo stato addestrato sotto questi aspetti. L'addestramento è stato effettuato utilizzando migliaia di immagini e un'ampia varietà di espressioni facciali.
Efficienza in tempo reale: dal momento che VASA-1 è in grado di generare fotogrammi video con dimensioni di 512×512 pixel a 45 fps nella modalità di elaborazione batch offline e fino a 40 fps nella modalità di streaming online, il software garantisce un'elevata efficienza. Ci sono voluti in media 2 minuti per produrre i video utilizzando una GPU Nvidia RTX 4090.

Cosa si potrà fare con VASA-1

Quali potrebbero essere i potenziali utilizzi di VASA-1? Una tecnologia così potente già nella sua versione 1 sicuramente può avere campi di applicazione potenzialmente infiniti. Tra quelli più ovvi ci sono sicuramente gli utilizzi nell'ambito dei videogiochi, consentendo la creazione di avatar sempre più realistici, ma il modello potrebbe essere usato anche per la realizzazione di propri avatar virtuali da utilizzare in ambito social. Per non parlare poi dell'uso in ambito musicale, dove VASA-1 sembra essere in grado di districarsi piuttosto bene, pur non essendo stata addestrata per generare canzoni (come abbiamo già detto prima).

Sopra vi abbiamo mostrato alcuni deepfake generati con VASA-1 partendo da immagini generate a loro volta con l'AI (non si tratta quindi di scatti reali ma di immagini generate con StyleGAN2 oppure con DALL-E 3, eccezion fatta per il deepfake che ha come protagonista la Gioconda, naturalmente). Guardandoli potrete notare quanto è avanti il modello, anche se con un occhio abbastanza attento si può notare qua e là qualche piccolo artefatto che tradisce la natura artificiale dei filmati in questione.

Quali sono i possibili rischi di questa tecnologia

Dal momento che «da grandi poteri derivano grandi responsabilità», Microsoft ha deciso di non rendere pubblico il modello, visti i possibili rischi derivanti da un uso improprio, in primis la propagazione di deepfake creati ad arte, che sarebbero difficili da scovare, e che potrebbero essere usati per creare fake news potenzialmente pericolose per la sicurezza di intere economie e paesi. Senza mezzi termini, infatti, Microsoft ha riferito:

Non abbiamo intenzione di rilasciare una demo online, un'API, un prodotto, ulteriori dettagli di implementazione o qualsiasi offerta correlata finché non saremo certi che la tecnologia verrà utilizzata in modo responsabile e in conformità con le normative appropriate.

Anche Sora, il software di generazione video di OpenAI (società che per la cronaca fa parte del gruppo Microsoft), non è stato resa disponibile praticamente per gli stessi motivi. Sarà interessante vedere se l'avvento di VASA-1 contribuirà allo sviluppo degli strumenti già sviluppati da OpenAI e, se sì, in che modo.

non perderti questo articolo

Deepfake, ecco i consigli per riconoscerli e gli strumenti per difendersi

Fonti

Microsoft.com