;Resize,width=638;)
DeepSeek, la startup cinese che pochi giorni fa ha scosso l'intero settore AI con il suo chatbot ultra-efficiente, ha recentemente lanciato Janus-Pro, una nuova famiglia di modelli AI in grado di generare immagini. Secondo i dati forniti dalla stessa azienda fondata da Liang Wenfeng, le prestazioni del modello più avanzato della serie supererebbero quelle di DALL-E 3 di OpenAI e di altri strumenti di grafica basati sull'intelligenza artificiale, come PixArt-alpha, Emu3-Gen e Stable Diffusion XL.
Ciò che rende Janus-Pro particolarmente interessante è la sua architettura multimodale, che gli consente non solo di creare immagini, ma anche di analizzarle, offrendo un livello di versatilità superiore rispetto a molti modelli concorrenti. Altro fatto interessante, Janus-Pro è stato rilasciato con licenza MIT, il che significa che può essere utilizzato liberamente anche per scopi commerciali.
Cos’è e come funziona Janus-Pro: le caratteristiche
A livello tecnico, Janus-Pro è disponibile in più versioni, con dimensioni che variano da 1 a 7 miliardi di parametri. I parametri rappresentano la complessità del modello e influenzano direttamente la qualità delle immagini generate: più parametri significano, in genere, immagini più precise e dettagliate.
DeepSeek definisce Janus-Pro un «framework autoregressivo». Cosa significa? Sostanzialmente questo indica che il modello può sia analizzare che creare nuove immagini.
I test condotti sui benchmark GenEval e DPG-Bench mostrano risultati notevoli: il modello Janus-Pro-7B, il più grande della famiglia, ottiene punteggi superiori rispetto ad alcuni dei principali concorrenti, in primis DALL-E 3, suggerendo un'ottima efficienza considerando la sua relativa compattezza. Descrivendo il suo nuovo modello, DeepSeek spiega:
[Janus-Pro, NdR] Risolve i limiti degli approcci precedenti disaccoppiando la codifica visiva in percorsi separati, pur utilizzando un'unica architettura di trasformazione unificata per l'elaborazione. Il disaccoppiamento non solo allevia il conflitto tra i ruoli dell'encoder visivo nella comprensione e nella generazione, ma aumenta anche la flessibilità del framework. Janus-Pro supera i precedenti modelli unificati ed è in grado di eguagliare o superare le prestazioni dei modelli specifici.

Per quanto riguarda i limiti del modello, stando a quanto dichiarato dall'azienda, Janus-Pro «supporta l'input di immagini 384 x 384 pixel».
Janus-Pro, l’AI che crea immagini: come provarlo
Se desiderate provare Janus-Pro, vi segnaliamo che il modello 7B è liberamente disponibili per l'uso sulla piattaforma di sviluppo Hugging Face, a questo link. Volendo è possibile anche eseguirne il download per farlo “girare” localmente da questa pagina di GitHub.