Title
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities X. Zhang Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 57 0 0 05 May 2025
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency Zhikai Wang Jiashuo Sun W. Zhang Zhiqiang Hu Xin Li F. Wang Deli Zhao VLM LRM 70 0 0 24 Apr 2025
LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning? Kexian Tang Junyao Gao Yanhong Zeng Haodong Duan Yanan Sun Zhening Xing Wenran Liu Kaifeng Lyu Kai-xiang Chen ELM LRM 46 1 0 25 Mar 2025
MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding S. Han Peng Xia Ruiyi Zhang Tong Sun Yun-Qing Li Hongtu Zhu Huaxiu Yao VLM 55 2 0 18 Mar 2025
MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization Kangyu Zhu Peng Xia Yun-Qing Li Hongtu Zhu Sheng Wang Huaxiu Yao 90 1 0 09 Dec 2024
VHELM: A Holistic Evaluation of Vision Language Models Tony Lee Haoqin Tu Chi Heem Wong Wenhao Zheng Yiyang Zhou ... Josselin Somerville Roberts Michihiro Yasunaga Huaxiu Yao Cihang Xie Percy Liang VLM 29 10 0 09 Oct 2024
CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models Peng Xia Ze Chen Juanxi Tian Yangrui Gong Ruibo Hou ... Jimeng Sun Zongyuan Ge Gang Li James Zou Huaxiu Yao MU VLM 40 30 0 10 Jun 2024
Calibrated Self-Rewarding Vision Language Models Yiyang Zhou Zhiyuan Fan Dongjie Cheng Sihan Yang Zhaorun Chen Chenhang Cui Xiyao Wang Yun-Qing Li Linjun Zhang Huaxiu Yao VLM 64 26 0 23 May 2024
MoVA: Adapting Mixture of Vision Experts to Multimodal Context Zhuofan Zong Bingqi Ma Dazhong Shen Guanglu Song Hao Shao Dongzhi Jiang Hongsheng Li Yu Liu MoE 37 40 0 19 Apr 2024
Are We on the Right Way for Evaluating Large Vision-Language Models? Lin Chen Jinsong Li Xiao-wen Dong Pan Zhang Yuhang Zang ... Haodong Duan Jiaqi Wang Yu Qiao Dahua Lin Feng Zhao VLM 49 208 0 29 Mar 2024
Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning Hao Shao Shengju Qian Han Xiao Guanglu Song Zhuofan Zong Letian Wang Yu Liu Hongsheng Li VGen LRM MLLM 47 35 0 25 Mar 2024