0 risultati

Cosa sono, come si creano e riconoscono i deepfake, i video creati al computer che sembrano reali

Sono tra le più controverse tecniche di AI per la sintesi dell'immagine umana. I deepfake consentono di modificare in modo estremamente realistico un video con esseri umani.

10 Settembre 2023
10:30
7 condivisioni
Cosa sono, come si creano e riconoscono i deepfake, i video creati al computer che sembrano reali
deepfake immagini reali fittizie

I deepfake sono sintesi di immagini umane, video o audio basate sull'intelligenza artificiale utilizzate per combinare o sovrapporre media reali con artefatti creati digitalmente. In sostanza con questa tecnica è possibile cambiare o modificare il volto dello speaker all'interno del video, modificare il parlato e sincronizzare il parlato con i movimenti della bocca. Il termine nasce dall'unione delle parole inglesi fake ("falso") e deep learning, ovvero la tecnica di intelligenza artificiale utilizzata per realizzare questi filmati.
Ultimamente la GAN (Generative Adversarial Network) è tra le tecniche di intelligenza artificiale maggiormente utilizzate per creare deepfake verosimili, limitando gli errori superficiali del deep learning tramite l'implementazione di modelli che si "sfidano fra loro".

Come ogni strumento, anche i deepfake possono essere utilizzati per scopi poco nobili. Si sono già registrati usi impropri di tale tecnologia per generare contenuti utili alla diffusione di fake news o utilizzati a scopo di revenge porn.

Cosa si intende per deepfake e le tipologie

I deepfake sono contenuti audio, video o fotografici creati dall'AI che modificano in modo realistico immagini o voci umane esistenti. I media di deepfake – che siano immagini, video o audio – non nascono dal nulla, ma vengono generati da media già esistenti, che vengono modificati attraverso un tipo di intelligenza artificiale detta il deep-learning. Questa tecnologia si nutre di dati biometrici e vocali, e li rielabora creando così contenuti originali.

Ne esistono diverse tipologie, tra cui

  • foto estremamente reali che ritraggono persone inesistenti, oppure persone esistenti che compiono atti più o meno inverosimili
  • audio che riproducono la voce di persone esistenti
  • video dove vengono modificate parti della faccia – come per esempio il labiale o le espressioni – oppure video in cui persone reali o fittizie dicono o fanno cose mai dette o fatte, spesso attraverso lo scambio di volti.

Ma com'è possibile tutto ciò? Vediamo la tecnologia che c'è alle spalle del deepfake.

Come funzionano e come si creano i deepfake

Esistono diversi modi per creare un deepfake, Il più comune, attualmente, è quello basato sull'utilizzo di reti neurali, cioè strutture matematiche che cercano di imitare la struttura dei neuroni del nostro cervello.
Semplificando al massimo, nel nostro cervello le informazioni passano da una zona all’altra e vengono scambiate tra i neuroni che le elaborano e le integrano tra loro. Le reti neurali artificiali fanno più o meno la stessa cosa: sono organizzate in diversi livelli di neuroni che ricevono in input sia i dati che vogliamo modificare, che un’enorme mole di dati reali precedentemente acquisiti. Ogni livello di neuroni riceve dati da quello precedente e li perfeziona migliorando man mano i dettagli fino ad ottenere il risultato desiderato.

rete neurale livelli deepfake

Le reti vengono inoltre allenate a riconoscere i contenuti fake, così da potersi migliorare da sole. Questo significa che generano un contenuto, controllano se sembra falso confrontandolo con dati reali e, se viene etichettato come falso, lo modificano. Questo processo si ripete finché la tecnologia non riconosce il deepfake come reale e quindi capisce di aver fatto un bel lavoro. Questo tipo di reti è detta GAN – Generative Adversarial Network, proprio perché l'output viene posto davanti a un "avversario" che stabilisce se sia riconoscibile o meno.

Architettura rete GAN Generative Adversarial network

Possibili rischi nell'uso improprio dei deepfake

I deepfake nacono con il programma "Video Rewrite" del 1997 con il quale Christoph Bregler, Michele Covell e Malcolm Slaney modificavano riprese video aggiungendo dettagli e particolari non presenti nel video originale.
La sempre maggiore capacità computazionale dei dispositivi che utilizziamo abitualmente ha consentito una rapida crescita di contenuti deepfake multimediali (immagini/video o audio) che stanno diventando sempre più difficili da distinguere da video autentici, e quindi potenzialmente pericolosi.
Questo strumento ci espone, quindi, a rischi legati ai contenuti che possono essere veicolati tramite questi video, per esempio per diffondere disinformazione.

Il garante della privacy ha emesso, a tal proposito, un vademecum per informare i cittadini sui possibili utilizzi impropri di tale tecnologia e – da marzo 2024 – l'Unione Europea ha approvato l'AI Act, il primo vero atto che regolamenta l'utilizzo dell'intelligenza artificiale.

Quella realizzata con i deepfake è una forma particolarmente grave di furto di identità.
Le persone che compaiono in un deepfake a loro insaputa non solo subiscono una perdita di controllo sulla loro immagine, ma sono private anche del controllo sulle loro idee e sui loro pensieri, che possono essere travisati in base ai discorsi
e ai comportamenti falsi che esprimono nei video.
Le persone presenti nei deepfake potrebbero inoltre essere rappresentate in luoghi o contesti o con persone che non hanno mai frequentato o che non frequenterebbero mai, oppure in situazioni che potrebbero apparire compromettenti.
In sostanza, quindi, un deepfake può ricostruire contesti e situazioni mai effettivamente avvenuti e, se ciò non è voluto dai diretti interessati, può rappresentare una grave minaccia per la riservatezza e la dignità delle persone.

Come riconoscere un contenuto deepfake

La tecnologia dietro al deepfake è sicuramente molto sofisticata, ma ancora soggetta ad errori e imprecisioni. Esistono infatti una serie di particolari che vengono riprodotti in modo poco accurato e aiutano riconoscere quando ci troviamo davanti a un deepfake:

  • nei video, il movimento degli occhi e delle labbra è spesso asincrono rispetto al resto del volto
  • nelle immagini la pelle è molto liscia e le rughe e i capelli non sono riprodotti fedelmente
  • nei vocali l'accento viene spesso riprodotto in modo inaccurato, non tenendo conto della provenienza regionale di chi viene "imitato

Da un punto di vista tecnologico invece, le stesse reti GAN che producono i deepfake, sono allenate a riconoscerli.

Sfondo autopromo
Cosa stai cercando?
api url views