
Siamo costantemente circondati da suggerimenti digitali: ogni volta che accediamo a una piattaforma di streaming o visitiamo un e-commerce, un qualche algoritmo basato sull'intelligenza artificiale sta lavorando per noi per curare la selezione di contenuti che ci troviamo davanti, siano essi contenuti digitali, prodotti da acquistare, e così via. Questo sistema, tecnicamente definito motore di raccomandazione, si fonda sull'analisi dei big data e su complessi algoritmi di machine learning progettati per interpretare i nostri comportamenti passati e anticipare i nostri desideri futuri. Lo scopo di queste tecnologie è duplice: da un lato aiutano noi utenti a orientarci in cataloghi sterminati, facendoci scoprire film, brani o prodotti che difficilmente troveremmo da soli, e dall'altro sono essenziali per le aziende per mantenere alto il nostro coinvolgimento e stimolare le vendite. Non è un caso che il mercato di questi sistemi valga oggi quasi 7 miliardi di dollari, con la previsione che questa cifra triplichi entro i prossimi anni.
Ma come fanno gli algoritmi a decidere cosa raccomandarci? In sintesi, il processo inizia con la raccolta capillare dei nostri dati, sia quelli forniti volontariamente sia quelli dedotti dalle nostre attività online. Queste informazioni vengono archiviate in enormi database, analizzate per individuare schemi ricorrenti e infine filtrate attraverso tre metodologie principali: il filtraggio collaborativo, che ci paragona ad altri utenti simili; quello basato sui contenuti, che analizza le caratteristiche intrinseche di ciò che abbiamo già apprezzato; e i sistemi ibridi. Sebbene questi algoritmi migliorino drasticamente la nostra esperienza utente, portano con sé sfide non indifferenti, dalla necessità di tutelare la nostra privacy e conformarsi alle normative, al rischio di incappare in bias appresi dai dati stessi, fino alla complessità tecnica di fornirci suggerimenti in tempo reale. Approfondiamo l'argomento tenendo conto che i sistemi di raccomandazione possono avere specificità diverse e modus operandi dissimili tra loro.
Come funzionano gli algoritmi di raccomandazione e quali benefìci comportano
Per comprendere appieno come gli algoritmi di raccomandazione riescano a decifrare i nostri gusti, dobbiamo analizzare le 5 fasi operative che trasformano le nostre interazioni in previsioni accurate, partendo dalla prima fase, la raccolta dei dati, che rappresenta il carburante principale dell'intero processo. I motori di raccomandazione si nutrono di due categorie di tracce che lasciamo online: i dati espliciti, ovvero le nostre azioni dirette e consapevoli come un “Mi piace”, una recensione scritta o una valutazione a stelle, e i dati impliciti, molto più numerosi e sottili, che includono la nostra cronologia di navigazione, i click, gli acquisti passati o persino il tempo che trascorriamo a osservare un prodotto. A questi si aggiungono spesso dati demografici e psicografici, come la nostra età o il nostro stile di vita. Tutti questi dati, una volta raccolti, passano alla seconda fase, quella di archiviazione. È a questo punto che i dati vengono immagazzinati in strutture di archiviazione complesse, note come data warehouse o data lake. Una volta “stoccati”, i dati passano alla terza fase, quella di analisi, dove gli algoritmi di apprendimento automatico cercano correlazioni matematiche per creare modelli predittivi.
La quarta fase, una delle più importanti, è quella del filtraggio, che determina la logica del suggerimento. Nel filtraggio collaborativo, utilizzato massicciamente da colossi come Amazon e Spotify, il sistema si basa sull'assunto che se noi e un altro utente abbiamo avuto preferenze simili in passato, è probabile che continueremo ad averle; se abbiamo apprezzato gli stessi film di un altro utente, l'algoritmo ci consiglierà anche quelli che lui ha visto e noi no. Questo metodo può essere basato sulla memoria, calcolando la vicinanza tra utenti oppure può essere basato su modelli, sfruttando reti neurali di deep learning per riempire i vuoti nelle nostre preferenze. Il limite principale qui è il cosiddetto “avvio a freddo”: se siamo nuovi utenti e non abbiamo uno storico, il sistema fatica a inquadrarci.
L'alternativa è il filtraggio basato sui contenuti, che invece di osservare gli altri utenti, si concentra sulle caratteristiche degli oggetti che ci sono piaciuti. Se abbiamo ascoltato un brano con determinati tag, genere e ritmo, l'algoritmo ci tratterà come vettori in uno spazio vettoriale, proponendoci altri brani “vicini” a quelli noti. Questo approccio risolve il problema, appena citato, del fatidico “avvio a freddo”, ma rischia di chiuderci in una bolla dove ci vengono proposte sempre cose troppo simili a quelle che già conosciamo, limitando la scoperta del nuovo.
Per ovviare ai difetti di entrambi i metodi di filtraggio, piattaforme come Netflix adottano sistemi ibridi, molto potenti ma onerosi in termini di calcolo. I benefìci per la nostra esperienza sono tangibili: risparmiamo tempo evitando scorrimenti infiniti e scopriamo contenuti rilevanti, tanto che l'80% delle visioni su Netflix deriva proprio da questi suggerimenti.
Le criticità legate ai sistemi di raccomandazione
A prescindere dal sistema di raccomandazione in uso, non mancano alcune criticità insite in questa tecnologia. Oltre alla complessità di gestire milioni di raccomandazioni simultanee, esiste il rischio che gli algoritmi apprendano e amplifichino pregiudizi sociali presenti nei dati di addestramento, generando raccomandazioni distorte, senza dimenticare la delicata questione della privacy legata alla raccolta massiva delle nostre informazioni personali. Riguardo alle criticità di questi sistemi ci sarebbe tanto da dire ed è un argomento talmente vasto e sconfinato che meriterebbe un approfondimento ad hoc.