0 risultati
video suggerito
video suggerito
10 Febbraio 2025
16:39

OmniHuman-1 è la nuova AI di ByteDance che genera video deepfake ultra-realistici: come funziona

Il nuovo strumento di generazione video di ByteDance si chiama OmniHuman-1 è, grazie al suo potente algoritmo, è in grado di generare deepfake molto realistici. Ecco come funziona.

208 condivisioni
OmniHuman-1 è la nuova AI di ByteDance che genera video deepfake ultra-realistici: come funziona
Immagine
Frame generato con OmniHuman–1. Credit: ByteDance

L'intelligenza artificiale sta compiendo passi da gigante nel settore della generazione video, e OmniHuman-1, l’ultima creazione di ByteDance (l'azienda che sviluppa TikTok), ne è una chiara dimostrazione. Questo nuovo modello AI è in grado di produrre deepfake estremamente realistici, superando molte delle limitazioni tecniche che in passato rendevano questi contenuti riconoscibili. A differenza di altri sistemi, che spesso tradiscono la loro natura artificiale con dettagli imperfetti, OmniHuman-1 riesce a generare video in cui il volto e i movimenti risultano incredibilmente naturali, rendendo più difficile distinguere tra reale e sintetico.

Il modello necessita solo di una singola immagine di riferimento e di una traccia audio per generare un filmato della lunghezza desiderata, adattandone anche il formato e la porzione del corpo visibile. È stato addestrato su circa 19.000 ore di contenuti video, sebbene ByteDance non abbia specificato le fonti da cui proviene il materiale di training. Oltre a creare nuovi filmati, OmniHuman-1 può anche modificare riprese esistenti, alterando persino i movimenti delle persone presenti nel video. C'è da dire che la qualità dell'output dipende dalla risoluzione dell'immagine di partenza e il modello può avere difficoltà con pose particolarmente complesse. Al momento non è disponibile pubblicamente.

Come funziona OmniHuman-1

OmniHuman-1 sfrutta una combinazione di tecniche avanzate di intelligenza artificiale per generare video in cui il soggetto appare incredibilmente naturale. A differenza dei deepfake “tradizionali”, che richiedono numerose immagini di riferimento per creare un video credibile, questo sistema è in grado di generare un video completo partendo da una sola immagine e un file audio. Per generare il contenuto, il modello utilizza una rete neurale avanzata che è stata addestrata su un impressionante dataset: ben 18.700 ore di contenuti.

Uno degli aspetti più innovativi di OmniHuman-1 è la possibilità di regolare vari parametri, come la “proporzione corporea”, che definisce quanto di un corpo umano debba essere visibile nel video generato, e la lunghezza della clip finale. Questa flessibilità permette al sistema di adattarsi a una vasta gamma di scenari, aumentando la versatilità nella produzione di video.

Uno degli elementi chiave che rende OmniHuman-1 particolarmente potente è l'integrazione di vari tipi di input, tra cui testo, audio e posa. Quando viene dato un input, il sistema è in grado di generare un video che non solo corrisponde al movimento del corpo del soggetto, ma anche alla sincronizzazione labiale e all'espressività facciale. L'intelligenza artificiale di OmniHuman-1 è infatti in grado di “leggere” il movimento naturale del corpo umano, grazie a un processo di addestramento basato su un enorme volume di dati, che include le diverse modalità di espressione corporea e le interazioni vocali.

Come schematizzato dall'immagine che trovate più avanti, il sistema OmniHuman si suddivide in due componenti principali:

  1. Il modello OmniHuman, che utilizza il modello di deep learning DiT, permette il condizionamento simultaneo di diverse modalità come testo, immagine, audio e pose del corpo umano.
  2. La strategia di addestramento “omnicomprensivo”, che adotta un processo di apprendimento a più fasi, in cui la progressione dipende dall'intensità delle condizioni relative al movimento. L'approccio di addestramento con condizioni miste consente al modello OmniHuman di sfruttare la capacità di gestire un ampio volume di dati variabili.
Immagine
Rappresentazione schematica del modello di OmniHuman. Credit: ByteDance

Il processo di addestramento di OmniHuman-1 è stato studiato per ottimizzare le capacità del modello di generare video. Inizialmente, il sistema impara a generare video basati su input di bassa complessità, come testo e immagini, per poi integrare segnali audio e di posa. Questo approccio “multi-condizionale” permette al sistema di perfezionare le sue capacità e migliorare la qualità finale degli output.

Nonostante l'efficacia del sistema, gli sviluppatori di ByteDance ammettono che ci sono ancora delle limitazioni, come le difficoltà nell'elaborare immagini di bassa qualità oppure difficoltà nel generare soggetti con pose articolate, ma è chiaro che la tecnologia è in costante evoluzione e in futuro il modello dovrebbe migliorare su questi fronti. Nei seguenti filmati, intanto, potete apprezzare alcuni video generati con OmniHuman-1. Giudicate voi stessi quanto sono più o meno realistici!

Le preoccupazioni sui deepfake ultra-realistici come OmniHuman-1

Se da un lato questo tipo di tecnologia apre nuove possibilità per l'intrattenimento e la creazione di contenuti digitali, dall'altro pone sfide significative sul fronte della sicurezza e dell'etica. Negli ultimi anni, i deepfake sono stati utilizzati in campagne di disinformazione politica in diversi Paesi del mondo. In Taiwan, ad esempio, è stato diffuso un audio generato dall'AI in cui un politico sembrava sostenere un candidato filo-cinese, mentre in Moldavia è circolato un falso video delle presunte dimissioni del presidente. Anche nel settore finanziario, i deepfake vengono impiegati per truffe sofisticate, con aziende che hanno subìto perdite milionarie a causa di imitazioni AI di dirigenti e celebrità.

Non a caso, l'impatto economico imputabile alla proliferazione di contenuti sintetici è significativo. Secondo un rapporto di Deloitte, nel 2023 le perdite legate a frodi con deepfake hanno superato i 12 miliardi di dollari e potrebbero raggiungere i 40 miliardi entro il 2027 solo negli Stati Uniti! Nonostante alcuni social network e piattaforme di ricerca abbiano iniziato a implementare strumenti per identificare e limitare la diffusione di contenuti falsificati dall'AI, il volume di questi materiali continua a crescere rapidamente. E vista la nascita di strumenti del calibro di OmniHuman-1 questo fenomeno è destinato a crescere.

Sfondo autopromo
Cosa stai cercando?
api url views