
Nei giorni scorsi Meta ha annunciato SAM 3D (Segment Anything Model), un software che permette di estrapolare modelli tridimensionali complessi e spazialmente coerenti partendo da semplici fotografie bidimensionali. Il cuore di questa nuova architettura tecnologica risiede in due modelli distinti ma complementari: SAM 3D Objects e SAM 3D Body. Il primo è specificamente ingegnerizzato per la ricostruzione di oggetti inanimati e intere scene, risolvendo problematiche comuni come le occlusioni o le prospettive parziali, mentre il secondo si specializza nell'analisi della figura umana, stimando posa e forma corporea con una precisione finora inedita. A differenza dei precedenti tentativi nel settore, che si basavano prevalentemente su dati sintetici e isolati, questo sistema punta a una comprensione “di buon senso” del mondo fisico reale, rendendo accessibili alla comunità scientifica risorse fondamentali come i codici di inferenza e nuovi benchmark di valutazione. Secondo Meta tutto questo «ha il potenziale per essere utilizzato per applicazioni creative in campi come la robotica, i media interattivi, la scienza e la medicina dello sport».
Come funzionano SAM 3D Objects e SAM 3D Body
Approfondendo il funzionamento tecnico di SAM 3D Objects, notiamo un cambio di paradigma fondamentale rispetto agli approcci tradizionali. Storicamente, i modelli di ricostruzione 3D sono stati limitati dalla scarsità di dati di addestramento: mentre per testo e immagini esistono database immensi, la disponibilità di una “verità fondamentale” nel settore dello sviluppo 3D è inferiore di svariati ordini di grandezza. Per superare questo ostacolo, invece di affidarsi solo ad asset sintetici creati al computer (che spesso non riflettono la complessità del mondo reale) è stato sviluppato un motore di dati innovativo.
Questo sistema utilizza un ciclo virtuoso in cui gli annotatori umani non devono creare modelli da zero, operazione lenta e costosa, ma si limitano a verificare e classificare le mesh generate dall'AI. Spieghiamo brevemente cosa intendiamo per “mesh”: si tratta della rete di poligoni che definisce la struttura geometrica di un oggetto 3D. Grazie a questo metodo, che combina la generazione automatica con la supervisione umana, è stato possibile annotare quasi un milione di immagini reali, creando un dataset di addestramento massiccio che permette al software di gestire oggetti piccoli, viste indirette e sfondi complessi molto meglio dei suoi predecessori.
Spostando la nostra attenzione su SAM 3D Body, notiamo che si tratta di una soluzione progettata per rispondere alla necessità di stimare la forma umana anche in condizioni difficili, come posture insolite o scene affollate. La peculiarità di questo modello risiede nell'utilizzo del formato MHR (Meta Momentum Human Rig), un nuovo formato che separa strutturalmente lo scheletro dalla forma dei tessuti molli, garantendo una resa anatomica più fedele alla realtà.
L'addestramento si è basato su un dataset di circa 8 milioni di immagini di alta qualità e, stando a quanto dice Meta, «il modello viene addestrato utilizzando una guida basata su prompt e un perfezionamento in più fasi, consentendo un'interazione flessibile con l'utente e migliorando l'allineamento 2D con prove visive nell'immagine».
È stato introdotto anche il dataset SA-3DAO (SAM 3D Artist Objects), che offre una serie di benchmark molto più impegnativi rispetto agli standard attuali, spingendo la ricerca verso una percezione 3D più realistica e meno artefatta.
Le limitazioni attuali
Per quanto significativi siano i progressi fatti da Meta in ambito 3D, rimangono alcune limitazioni. In merito alla ricostruzione degli oggetti, la risoluzione dell'output rimane moderata, il che significa che i dettagli delle strutture più complesse potrebbero andare persi o apparire distorti. Inoltre, SAM 3D Objects elabora gli elementi singolarmente e non è ancora in grado di ragionare sulle interazioni fisiche, come il contatto o la compenetrazione tra più oggetti. Anche sul fronte della ricostruzione corporea esistono margini di miglioramento: il modello elabora ogni individuo separatamente, ignorando le interazioni tra persone o tra uomo e ambiente, e la precisione nella stima della posa delle mani, sebbene migliorata, non raggiunge ancora i livelli dei sistemi specializzati esclusivamente su quella parte anatomica.