DeepSeek ha lanciato Janus-Pro, il tool cinese che permette di generare immagini con l’AI

La startup cinese DeepSeek, dopo aver scalato l'App Store USA sconvolgendo l'intero settore dell'AI, ha recentemente lanciato Janus-Pro, un modello in grado di generare immagini che si pone come rivale di DALL-E 3 di OpenAI o Stable Diffusion XL di Stability AI.

Vuoi Geopop senza pubblicità? Diventa Mecenate

A cura di Giuseppe Servidio

DeepSeek, la startup cinese che pochi giorni fa ha scosso l'intero settore AI con il suo chatbot ultra-efficiente, ha recentemente lanciato Janus-Pro, una nuova famiglia di modelli AI in grado di generare immagini. Secondo i dati forniti dalla stessa azienda fondata da Liang Wenfeng, le prestazioni del modello più avanzato della serie supererebbero quelle di DALL-E 3 di OpenAI e di altri strumenti di grafica basati sull'intelligenza artificiale, come PixArt-alpha, Emu3-Gen e Stable Diffusion XL.

Ciò che rende Janus-Pro particolarmente interessante è la sua architettura multimodale, che gli consente non solo di creare immagini, ma anche di analizzarle, offrendo un livello di versatilità superiore rispetto a molti modelli concorrenti. Altro fatto interessante, Janus-Pro è stato rilasciato con licenza MIT, il che significa che può essere utilizzato liberamente anche per scopi commerciali.

Cos’è e come funziona Janus-Pro: le caratteristiche

A livello tecnico, Janus-Pro è disponibile in più versioni, con dimensioni che variano da 1 a 7 miliardi di parametri. I parametri rappresentano la complessità del modello e influenzano direttamente la qualità delle immagini generate: più parametri significano, in genere, immagini più precise e dettagliate.

DeepSeek definisce Janus-Pro un «framework autoregressivo». Cosa significa? Sostanzialmente questo indica che il modello può sia analizzare che creare nuove immagini.

I test condotti sui benchmark GenEval e DPG-Bench mostrano risultati notevoli: il modello Janus-Pro-7B, il più grande della famiglia, ottiene punteggi superiori rispetto ad alcuni dei principali concorrenti, in primis DALL-E 3, suggerendo un'ottima efficienza considerando la sua relativa compattezza. Descrivendo il suo nuovo modello, DeepSeek spiega:

[Janus-Pro, NdR] Risolve i limiti degli approcci precedenti disaccoppiando la codifica visiva in percorsi separati, pur utilizzando un'unica architettura di trasformazione unificata per l'elaborazione. Il disaccoppiamento non solo allevia il conflitto tra i ruoli dell'encoder visivo nella comprensione e nella generazione, ma aumenta anche la flessibilità del framework. Janus-Pro supera i precedenti modelli unificati ed è in grado di eguagliare o superare le prestazioni dei modelli specifici.

Immagine — Confronto della generazione di testo–immagine tra Janus–Pro e il suo predecessore, Janus. Credit: DeepSeek.

Per quanto riguarda i limiti del modello, stando a quanto dichiarato dall'azienda, Janus-Pro «supporta l'input di immagini 384 x 384 pixel».

Janus-Pro, l’AI che crea immagini: come provarlo

Se desiderate provare Janus-Pro, vi segnaliamo che il modello 7B è liberamente disponibili per l'uso sulla piattaforma di sviluppo Hugging Face, a questo link. Volendo è possibile anche eseguirne il download per farlo “girare” localmente da questa pagina di GitHub.

non perderti questo articolo

DeepSeek R1, l’AI cinese che fa tremare i giganti USA e supera ChatGPT: di cosa si tratta

Fonti

TechCrunch Il Sole 24 Ore HuggingFace