Trên thực tế, Janus-Pro là một bản nâng cấp của model tạo ảnh Janus được phát hành vào năm ngoái. Hiện Janus-Pro có nhiều phiên bản khác nhau, từ bản nhẹ với 1 tỷ tham số cho tới bản 7 tỷ tham số, nghĩa là gần bằng với Stable Diffusion 3.5L. Riêng phiên bản Janus-Pro 7 tỷ tham số, DeepSeek cho biết nó vượt mặt các đối thủ khác như PixArt-alpha, Emu3-Gen và cả SDXL trong các bài benchmark GenEval và DPG-Bench.
DeepSeek cho biết Janus-Pro 7B hoạt động dựa trên framework tự phân chia quá trình encode độc lập nhưng vẫn giữ nguyên cùng một kiến trúc transformers để xử lý. Theo họ, “điều này không chỉ giảm bớt xung đột giữa các encoder ở bước hiểu và tạo ảnh mà còn tăng tính linh hoạt của framework này. Tuy nhiên
Hiện người dùng đã có thể dùng thử Janus-Pro 7B thông qua Hugging Face.