ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations

v1v2 (latest)

ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations

20 May 2025

ArXiv (abs)PDF HTML

Papers citing "ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations"

17 / 17 papers shown

Title
When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought Yiyang Zhou Haoqin Tu Z. Wang Zeyu Wang Niklas Muennighoff ... Shen Yan Haoqi Fan Cihang Xie Huaxiu Yao Qinghao Ye LRM 158 1 0 04 Nov 2025
eMotions: A Large-Scale Dataset and Audio-Visual Fusion Network for Emotion Analysis in Short-form Videos Xuecheng Wu Dingkang Yang Danlei Huang Xinyi Yin Yifan Wang ... Liangyu Fu Yang Liu Junxiao Xue Hadi Amirpour Wei Zhou 109 1 0 09 Aug 2025
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models Jinguo Zhu Weiyun Wang Zhe Chen Ziwei Liu Shenglong Ye ... Dahua Lin Yu Qiao Jifeng Dai Wenhai Wang Wei Wang MLLM VLM 453 661 1 14 Apr 2025
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models Wulin Xie Yujiao Shi Chaoyou Fu Yang Shi Bingyan Nie Hongkai Chen Zheng Zhang Liang Wang Tieniu Tan 308 7 0 04 Apr 2025
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing Xiangyu Zhao Peiyuan Zhang Kexian Tang Hao Li Zicheng Zhang ... Guangtao Zhai Junchi Yan Hua Yang Xue Yang Haodong Duan VLM LRM 407 22 0 03 Apr 2025
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks Weinan Zhang Mengna Wang Gangao Liu Xu Huixin Yiwei Jiang ... Hang Zhang Xin Li Weiming Lu Peng Li Yueting Zhuang LM&Ro LRM 425 33 0 27 Mar 2025
LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning? Kexian Tang Junyao Gao Yanhong Zeng Haodong Duan Yanan Sun Zhening Xing Wenran Liu Kaifeng Lyu Kai-xiang Chen ELM LRM 291 23 0 25 Mar 2025
Mind with Eyes: from Language Reasoning to Multimodal Reasoning Zhiyu Lin Yifei Gao Xian Zhao Yunfan Yang Jitao Sang LRM 261 16 0 23 Mar 2025
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey Longji Xu Shengqiong Wu Yujiao Shi William Yang Wang Ziwei Liu Jiebo Luo Hao Fei LRM 445 95 0 16 Mar 2025
Qwen2.5-VL Technical Report S. Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge ... Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu Junyang Lin VLM 615 2,376 0 20 Feb 2025
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency Dongzhi Jiang Renrui Zhang Ziyu Guo Yanwei Li Yu Qi ... Shen Yan Bo Zhang Chaoyou Fu Peng Gao Jiaming Song MLLM LRM 365 79 0 13 Feb 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 954 5,006 0 22 Jan 2025
CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language ModelsAAAI Conference on Artificial Intelligence (AAAI), 2024 Zihui Cheng Qiguang Chen Jin Zhang Hao Fei Xiaocheng Feng Wanxiang Che Min Li L. Qin VLM MLLM LRM 353 25 0 17 Dec 2024
LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems Nan Xu Xuezhe Ma LRM 320 0 0 18 Oct 2024
MuMA-ToM: Multi-modal Multi-Agent Theory of MindAAAI Conference on Artificial Intelligence (AAAI), 2024 Haojun Shi Suyu Ye Xinyu Fang Chuanyang Jin Leyla Isik Yen-Ling Kuo Tianmin Shu LLMAG 337 30 0 22 Aug 2024
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models Haodong Duan Xinyu Fang Junming Yang Xiangyu Zhao Lin Chen ... Yuhang Zang Pan Zhang Jiaqi Wang Dahua Lin Kai Chen LM&MA VLM 554 328 0 16 Jul 2024
Chameleon: Mixed-Modal Early-Fusion Foundation Models Chameleon Team MLLM 416 567 0 16 May 2024