Le AI hanno un grosso problema con i dati e con i copyright: cosa sta succedendo

Un editore danese ha accusato OpenAI di non proteggere adeguatamente i contenuti protetti dal diritto d'autore. La vicenda pone l'accento sulla scarsità di dati di qualità e copyright free con cui addestrare i modelli AI.

Entra nel nuovo canale WhatsApp di Geopop

A cura di Giuseppe Servidio

Morten Blichfeldt Andersen, direttore dell'editore danese Praxis, scandagliando il GPT Store (il negozio virtuale di OpenAI dove sono disponibili chatbot personalizzati dagli utenti e basati sullo stesso modello di ChatGPT) ha trovato numerosi bot o GPTs che, a quanto pare, sono stati addestrati utilizzando illecitamente materiale coperto dal diritto d'autore. Blichfeldt Andersen ha segnalato la cosa a OpenAI, che ha rimosso i bot che violavano il copyright (seppur solo dopo l'intervento delle associazioni Danske Forlag e Rights Alliance), e non esclude di intraprendere azioni legali nei confronti dell'azienda diretta da Sam Altman.

L'accaduto che abbiamo appena riportato per sommi capi ci fornisce l'assist per fare alcune riflessioni su un problema concreto con cui le aziende impegnate nello sviluppo di modelli AI stanno già facendo i conti: la scarsità di dati e informazioni di qualità con cui addestrare i propri modelli di intelligenza artificiale.

Quanti e quali dati servono per addestrare le intelligenze artificiali

Per comprendere appieno la portata di questo problema, dobbiamo fare un passo indietro e capire quanti dati servono per il training delle AI. Anche se non è noto come OpenAI e "compagnia cantante" addestrino i propri modelli, alcuni esperti del settore hanno fatto alcune stime che potremmo considerare verosimili e che ben evidenziano il concetto di scarsità di dati. Tra queste ci sono le analisi fatte da Pablo Villalobos dell'Epoch Research Institute. Secondo l'esperto, per addestrare un modello di grandi dimensioni come GPT-4 di OpenAI sarebbero stati impiegati qualcosa come 12.000 miliardi di token (un token corrisponderebbe a una parola o a una porzione di questa).

Se la cifra appena menzionata vi sembra enorme, vi ricrederete venendo a sapere che, stando alle attuali tendenze di sviluppo e alle stime fatte da Villalobos, la prossima generazione del modello di OpenAI, GPT-5, potrebbe richiedere tra i 60.000 e i 100.000 miliardi di token, che sono 10.000-20.000 miliardi in più di quanti possano essere forniti dalle risorse di qualità attualmente disponibili. Insomma, non ci sarebbero abbastanza dati per soddisfare la "fame" di dati di GPT-5. E c'è di peggio: questo ammanco è stimato sulla base dello scenario più "ottimista" possibile. Capiamo quindi quanto il problema della scarsità dei dati possa incidere sullo sviluppo futuro dei modelli linguistici di grandi dimensioni (LLM).

Verosimilmente, infatti, è impossibile avere libero accesso a tutto il materiale di qualità attualmente disponibile per "darlo in pasto" agli algoritmi che vanno addestrati. Questo perché l'accesso a questi dati spesso è compromesso proprio a causa dei problemi di copyright, come quelli segnalati da Praxis, ma anche da varie testate. Una su tutte il New York Times, che a dicembre dello scorso anno ha intentato una causa contro OpenAI sostenendo che milioni dei suoi articoli «sono stati utilizzati per addestrare i chatbot che ora fanno concorrenza al New York Times».

Quali sono le possibili soluzioni tecniche e legali per l'utilizzo dei dati

Al fine di garantire un adeguato sviluppo delle AI occorre trovare soluzioni tecniche e legali alla raccolta e all'utilizzo di dati per il training delle prossime generazioni di LLM.

Sul fronte tecnico, alcune aziende stanno sperimentando l'uso di dati sintetici (cioè generati ad hoc) ottenibili tramite modelli di intelligenza artificiale avanzati, che potrebbero essere utilizzati per ovviare alla scarsità di dati di qualità. La generazione di dati sintetici avviene usando due modelli AI: concettualmente, uno viene impiegato come "creatore" dei contenuti (testuali e visivi) che recupera informazioni dal Web; l'altro, invece, valuta i contenuti prodotti definendone la qualità. Sulla carta la combinazione di due modelli specializzati in due fasi differenti del lavoro di generazione dei dati (il controllo e il feedback appunto) potrebbe portare a soddisfare in relativamente poco tempo la fame di informazioni dei modelli da addestrare.

Attenzione però: la generazione di dati sintetici non è la panacea di tutti i mali, in quanto i modelli di AI possono introdurre errori e pregiudizi nei dati generati, portando così alla creazione di risultati incoerenti o insensati (chiamati in gergo gibberish), il che provocherebbe un fenomeno conosciuto come model collapse (letteralmente “collasso del modello”).

Ecco perché bisogna lavorare anche sul fronte legale, per esempio intervenendo nella definizione del concetto di copyright, introducendo nuove tutele e norme per i creatori di contenuti, per gli utenti e anche per le aziende impegnate nello sviluppo delle AI. Alcune di queste – tra cui la stessa OpenAI – visto il problema della scarsità di informazioni di qualità con cui addestrare i propri modelli stanno valutando la creazione di veri e propri mercati dei dati, dove il valore delle informazioni utilizzate per il training dei modelli può essere riconosciuto e remunerato.

non perderti questo articolo

fastweb intelligenza artificiale italiana

Fastweb sta lavorando a un’intelligenza artificiale che “pensa” in italiano

Fonti

Agenda Digitale Andrea Villiotti Morten Blichfeldt Andersen (via LinkedIn)