0 risultati
video suggerito
video suggerito
4 Aprile 2024
14:13

Voice Engine di OpenAI fa paura: l’intelligenza artificiale clona la voce in appena 15 secondi

OpenAI ha annunciato un modello di AI generativa che consente di clonare una voce partendo da un campione audio di soli 15 secondi. Ecco potenziali usi legittimi e impropri.

3.378 condivisioni
Voice Engine di OpenAI fa paura: l’intelligenza artificiale clona la voce in appena 15 secondi
voice engine openAI

OpenAI, l'azienda pioniera nello sviluppo di software di intelligenza artificiale generativa (come ChatGPT e Sora), ha annunciato Voice Engine, un nuovo tool di sintesi vocale che permette di clonare una voce partendo da un campione audio di soli 15 secondi. Le capacità del modello AI di generare voci sintetiche a partire da un input testuale sono dimostrate da alcuni esempi pubblicati da OpenAI nel loro sito. L'azienda ha riferito che lo ha già impiegato nelle API text-to-speech e nella funzione “Leggi ad alta voce” di ChatGPT. In un'intervista rilasciata da un suo sviluppatore a TechCrunch è stato detto che l'addestramento del modello è basato su «un mix di dati concessi in licenza e disponibili pubblicamente». Dalle tracce audio d'esempio riproducibili sul blog di OpenAI si può apprezzare la grande capacità del tool di clonare le voci andando a conferire tutte quelle caratteristiche di intonazione, timbro e “calore” che solitamente non sono presenti nelle voci sintetiche (ma che in questo caso ci sono, eccome).

Per il momento Voice Engine sarà distribuito a una decina di sviluppatori e sarà data la precedenza al suo utilizzo in attività considerate «a basso rischio» e «socialmente vantaggiose». Tra coloro che stanno testando Voice Engine c'è Spotify, che lo utilizza dall'inizio di settembre per doppiare i podcast di conduttori di primo livello – come Lex Fridman – in svariate lingue.

Quali sono i possibili utilizzi di Voice Engine

L'uso di uno strumento come Voice Engine può avere una grande utilità in diversi settori. Tra le altre cose, il tool può essere usato per fornire assistenza alla lettura a bambini e persone non godono di un livello di istruzione adeguato.

Voice Engine può essere usato anche per tradurre contenuti (come video e podcast), così da raggiungere un pubblico globale. Fatto interessante, quando viene utilizzato a questo scopo, lo strumento preserva l'accento nativo presente nella voce "originale": per intenderci, se deve generare del testo in inglese partendo da un campione audio in lingua francese, andrebbe a produrre un audio di output in lingua inglese, ma con un'inflessione francese.

Il tool può essere usato anche per scopi medici, magari per ridare voce a chi l'ha persa o a chi, per una qualche disabilità, non ne ha mai avuto una. Il Norman Prince Neurosciences Institute, per esempio, sta esplorando gli usi dell'AI in contesti clinici di questa complessità e, nell'ambito di un progetto pilota che "somministra" Voice Engine a soggetti con problemi oncologici o neurologici affetti da disturbi del linguaggio, ha già ottenuto alcuni risultati positivi. È il caso dei medici Fatima Mirza, Rohaid Ali e Konstantina Svokos che, partendo da un campione audio di una giovane paziente (per la cronaca, aveva perso la capacità di parlare a causa di un tumore vascolare al cervello), sono stati in grado di ripristinare la sua voce sfruttando proprio Voice Engine.

Immagine

Quali sono i rischi dell'AI di OpenAI per clonare voci reali

Nel comunicato ufficiale in cui ha annunciato il suo nuovo tool, oltre a elencare gli scopi nobili con cui può essere utilizzato, OpenAI ha anche parlato dei possibili rischi legati a un uso improprio di Voice Engine, dicendo:

Siamo consapevoli che generare discorsi che assomiglino alla voce delle persone comporta seri rischi, particolarmente importanti in un anno di elezioni (le presidenziali USA del 2024, ndr). Stiamo collaborando con partner statunitensi e internazionali provenienti da diversi settori: governo, media, spettacolo, istruzione, società civile e altri ancora, per assicurarci di incorporare il loro feedback durante lo sviluppo del tool.

Clonare la voce di un politico per screditarlo non è l'unico pericolo; anche un comune messaggio vocale di WhatsApp di un utente qualsiasi potrebbe essere usato per clonare la sua voce ed essere usato a suo danno per screditarlo o per perpetrare truffe, raggiri o anche per "bypassare" sistemi di sicurezza basati sul riconoscimento vocale.

Oltre a coinvolgere partner di vario genere nello sviluppo del tool, cos'altro sta facendo OpenAI per mitigare tutti questi potenziali rischi? Nel comunicato ufficiale si legge:

I partner che oggi testano Voice Engine hanno accettato le nostre politiche di utilizzo, che vietano la rappresentazione di un altro individuo o organizzazione senza consenso o diritto legale. Inoltre, i nostri termini con questi partner richiedono il consenso esplicito e informato dell'oratore originale e non permettiamo agli sviluppatori di creare modi per consentire ai singoli utenti di creare la propria voce. I partner devono anche comunicare chiaramente al loro pubblico che le voci che sentono sono generate dall'intelligenza artificiale. Infine, abbiamo implementato una serie di misure di sicurezza, tra cui il watermarking per tracciare l'origine di qualsiasi audio generato da Voice Engine, oltre al monitoraggio proattivo di come viene utilizzato.

OpenAI rilascerà al pubblico l'AI di Voice Engine?

Al momento OpenAI non ha definito quando e se Voice Engine verrà rilasciato al pubblico. L'uso del condizionale è d'obbligo visto che nel suo comunicato ufficiale l'azienda diretta da Sam Altman ha affermato: «È importante che le persone in tutto il mondo capiscano dov'è diretta questa tecnologia, sia che alla fine la implementeremo su larga scala o meno». I motivi di tanta cautela riguardano i già citati rischi legati a un uso improprio di un tool così potente ed efficace nel clonare voci umane.

Fonti
Sfondo autopromo
Cosa stai cercando?
api url views