DolphinGemma, il nuovo modello AI di Google per interpretare il linguaggio dei delfini

Grazie all’AI, il modello DolphinGemma analizza e genera vocalizzi di delfino, aprendo nuove vie per comunicare con i cetacei. Google renderà il modello open source per la ricerca scientifica quest'estate.

Vuoi Geopop senza pubblicità? Diventa Mecenate

A cura di Giuseppe Servidio

Immagine — Branco di delfini maculati atlantici, *Stenella frontalis*. Credit: Google.

Capire i delfini non è più soltanto un sogno per etologi e appassionati del mondo marino: oggi, grazie all'intelligenza artificiale, si aprono nuove strade verso una comunicazione più profonda tra esseri umani e cetacei. In occasione della Giornata Mondiale dei Delfini, Google ha annunciato un risultato straordinario: DolphinGemma, un modello AI sviluppato in collaborazione con il Georgia Institute of Technology e il WDP (Wild Dolphin Project), è in grado di analizzare le vocalizzazioni dei delfini e generare nuovi suoni simili in modo realistico. Questo progetto rappresenta un passo avanti importante nella comprensione del “linguaggio” dei delfini maculati atlantici (Stenella frontalis), una specie studiata in modo approfondito da oltre trent'anni.

Combinando un'enorme mole di dati raccolti sott'acqua con algoritmi audio avanzati, DolphinGemma può individuare schemi sonori ricorrenti, aprendo la strada a una comunicazione interattiva tra le specie. E non finisce qui: attraverso un sistema chiamato CHAT, si stanno anche testando forme di dialogo bidirezionale, utilizzando suoni artificiali per facilitare l'interazione con gli animali.

La nascita del modello DolphinGemma

Per decenni, il linguaggio dei delfini è stato un affascinante mistero. Fischi, click, ronzii e suoni impulsivi hanno riempito gli archivi audio dei ricercatori, ma interpretare il loro significato è sempre stato un compito complesso. Il Wild Dolphin Project, attivo dal 1985 nelle acque delle Bahamas, ha condotto la più lunga indagine sul campo mai realizzata su una singola comunità di delfini. Il suo approccio non invasivo – riassunto nel motto “nel loro mondo, alle loro condizioni” – ha permesso di raccogliere un archivio unico: decenni di audio e video subacquei associati con cura ai comportamenti e alle identità individuali dei delfini osservati. Questo patrimonio di dati ha permesso di iniziare a collegare suoni specifici a situazioni comportamentali ricorrenti: ad esempio, i “fischietti caratteristici”, simili a nomi propri, usati per richiamarsi a vicenda o gli “squawk” intermittenti, associati a conflitti tra individui.

È su questo ricchissimo corpus che si è potuta innestare la tecnologia di Google. DolphinGemma è un modello audio avanzato basato sull'architettura Gemma, una serie di modelli linguistici leggeri e aperti. A differenza di modelli solo testuali, DolphinGemma è audio-in e audio-out: ascolta una sequenza sonora dei delfini, ne analizza la struttura interna e genera una continuazione coerente, proprio come fanno i modelli linguistici predittivi con le parole. La tecnologia alla base si affida a SoundStream, un tokenizzatore audio capace di rappresentare in maniera efficiente i segnali vocali complessi, e a un modello con circa 400 milioni di parametri, dimensionato in modo da funzionare anche su smartphone, in particolare i Google Pixel usati direttamente sul campo.

Oltre all'analisi dei suoni naturali, il progetto prevede un altro fronte di ricerca: la comunicazione bidirezionale. Qui entra in gioco il sistema CHAT (Cetacean Hearing Augmentation Telemetry), un'interfaccia sottomarina sviluppata insieme al Georgia Tech. CHAT non ha l'obiettivo di tradurre direttamente il linguaggio dei delfini, bensì di creare un vocabolario condiviso a partire da fischi artificiali. Questi suoni, associati a oggetti familiari ai delfini, come alghe o giochi, vengono presentati nel contesto naturale. Se un delfino imita il fischio corrispondente, può ricevere l'oggetto in questione, rafforzando così l'associazione.

L'uso dei telefoni Google Pixel in questi esperimenti rappresenta un vantaggio importante: permette di ridurre il bisogno di hardware specifico, abbassando costi, consumi e dimensioni dell'attrezzatura. Gli ultimi modelli dello smartphone di “Big G”, come il Pixel 9, sono in grado di eseguire in tempo reale sia modelli di deep learning come DolphinGemma che algoritmi di template matching, cioè di confronto con suoni già noti, migliorando la capacità del sistema di rispondere rapidamente alle vocalizzazioni dei delfini. I ricercatori possono così ricevere feedback immediati tramite cuffie a conduzione ossea, restando immersi nell'ambiente marino.

L'apertura del progetto alla comunità scientifica

Un aspetto cruciale del progetto è la sua apertura alla comunità scientifica. Google ha annunciato che condividerà DolphinGemma come modello open source nell'estate del 2025, rendendolo disponibile a ricercatori che lavorano anche su altre specie di cetacei, come i tursiopi o i delfini dal lungo rostro. Sebbene sarà necessario adattare il modello alle specifiche vocalizzazioni di ciascuna specie, la struttura modulare di DolphinGemma ne facilita la personalizzazione e la scalabilità.

non perderti questo articolo

AI Overviews è disponibile in Italia su Google: come funziona e quali sono le novità per la ricerca sul Web

Fonte

Blog di Google