Title
UniModel: A Visual-Only Framework for Unified Multimodal Understanding and Generation Chi Zhang Jiepeng Wang Y. Wang Yuanzhi Liang X. J. Yang Zuoxin Li Haibin Huang Xuelong Li DiffM 143 0 0 21 Nov 2025
Autoregressive Styled Text Image Generation, but Make it Reliable Carmine Zaccagnino Fabio Quattrini Vittorio Pippi S. Cascianelli Alessio Tonioni Rita Cucchiara 122 0 0 27 Oct 2025
Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Y. Wang Fei Wang Wei Li Chen Change Loy MLLM VGen 144 1 0 09 Oct 2025
Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer Ziyuan Huang Dandan Zheng Cheng Zou Rui Liu Xiaolong Wang ... Jiajia Liu Qingpei Guo Ming-Hsuan Yang Jingdong Chen Jun Zhou 120 8 0 08 Oct 2025
RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark Yang Shi Yuhao Dong Yue Ding Yuran Wang Xuanyu Zhu ... Wenjing Yang Yuanxing Zhang Pengfei Wan Yi Zhang Ziwei Liu ELM 112 4 0 29 Sep 2025
Uni4D-LLM: A Unified SpatioTemporal-Aware VLM for 4D Understanding and Generation Hanyu Zhou Gim Hee Lee 112 3 0 28 Sep 2025
MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer Yanghao Li Rui Qian Bowen Pan Haotian Zhang Haoshuo Huang ... Zhengdong Zhang Chen Chen Yang Zhao Ruoming Pang Zhifeng Chen MLLM 184 4 0 19 Sep 2025
Reconstruction Alignment Improves Unified Multimodal Models Ji Xie Trevor Darrell Luke Zettlemoyer Xudong Wang 166 12 0 08 Sep 2025
NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale NextStep Team Chunrui Han Guopeng Li J. Wu Quan Sun ... Ziyang Meng Binxing Jiao Daxin Jiang X. Zhang Yibo Zhu DiffM 159 21 0 14 Aug 2025
Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation P. Wang Yi Peng Yimeng Gan Liang Hu Tianyidan Xie ... Hongyang Wei Eric Li Xuchen Song Yang Liu Yahui Zhou SyDa 92 9 0 05 Aug 2025
Aesthetics is Cheap, Show me the Text: An Empirical Evaluation of State-of-the-Art Generative Models for OCR Peirong Zhang Haowei Xu Jiaxin Zhang Guitao Xu Xuhan Zheng Zhenhua Yang Junle Liu Yuyi Zhang Lianwen Jin EGVM 266 2 0 20 Jul 2025
Generative Distribution Distillation Jiequan Cui B. Zhu Qingshan Xu Xiaogang Xu Pengguang Chen Xiaojuan Qi Bei Yu Hanwang Zhang Richang Hong OffRL 164 0 0 19 Jul 2025
Omni-Video: Democratizing Unified Video Understanding and Generation Zhiyu Tan Hao Yang Luozheng Qin Jia Gong Mengping Yang Hao Li VGen VLM 320 10 0 08 Jul 2025
Show-o2: Improved Native Unified Multimodal Models Jinheng Xie Zhenheng Yang Mike Zheng Shou VGen 387 78 0 18 Jun 2025
Co-Reinforcement Learning for Unified Multimodal Understanding and Generation Jingjing Jiang Chongjie Si Jun Luo Hanwang Zhang Chao Ma 596 5 0 23 May 2025
VTBench: Evaluating Visual Tokenizers for Autoregressive Image Generation Huawei Lin Tong Geng Zhaozhuo Xu Weijie Zhao VLM 408 2 0 19 May 2025
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities Wei Wei Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan ... Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 1.0K 26 0 05 May 2025
Nexus-Gen: Unified Image Understanding, Generation, and Editing via Prefilled Autoregression in Shared Embedding Space Hong Zhang Zhongjie Duan Xingjun Wang Yuze Zhao Weiyi Lu Zhipeng Di Yongjun Xu Yingda Chen Yu Zhang MLLM 399 7 0 30 Apr 2025
Step1X-Edit: A Practical Framework for General Image Editing Shixuan Liu Yucheng Han Peng Xing Fukun Yin Rui Wang ... Yibo Zhu Binxing Jiao Wei Wei Gang Yu Daxin Jiang DiffM 676 153 0 24 Apr 2025
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation Zhiyuan Yan Junyan Ye Weijia Li Zilong Huang Shenghai Yuan Xiangyang He Kaiqing Lin Jun-Jian He Conghui He Lichao Sun MLLM EGVM 407 52 0 03 Apr 2025
Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling Xiaokang Chen Zhiyu Wu Xingchao Liu Zizheng Pan Wen Liu Zhenda Xie X. Yu Chong Ruan AI4TS 482 426 0 29 Jan 2025
Chameleon: Mixed-Modal Early-Fusion Foundation Models Chameleon Team MLLM 476 595 0 16 May 2024