CoT-Vid: Dynamic Chain-of-Thought Routing with Self Verification for Training-Free Video Reasoning

CoT-Vid: Dynamic Chain-of-Thought Routing with Self Verification for Training-Free Video Reasoning

17 May 2025

Papers citing "CoT-Vid: Dynamic Chain-of-Thought Routing with Self Verification for Training-Free Video Reasoning"

19 / 19 papers shown

Title
TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning Xingjian Zhang Siwei Wen Wenjun Wu Lei Huang LRM 101 8 0 13 Apr 2025
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning Xinhao Li Ziang Yan Desen Meng Lu Dong Xiangyu Zeng Yinan He Yun Wang Yu Qiao Yi Wang Limin Wang VLM AI4TS LRM 80 18 0 09 Apr 2025
Video-R1: Reinforcing Video Reasoning in MLLMs Kaituo Feng Kaixiong Gong Yangqiu Song Zonghao Guo Yibing Wang Tianshuo Peng Jian Wu Xiaoying Zhang Benyou Wang Xiangyu Yue AI4TS SyDa LRM 94 31 0 27 Mar 2025
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation Hongcheng Gao Jiashu Qu Jingyi Tang Baolong Bi Yi Liu Hongyu Chen Li Liang Li Su Qingming Huang MLLM VLM LRM 122 5 0 25 Mar 2025
SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding Mingze Xu Mingfei Gao Shiyu Li Jiasen Lu Zhe Gan Zhengfeng Lai Meng Cao Kai Kang Yue Yang Afshin Dehghan 111 2 0 24 Mar 2025
Breaking the Encoder Barrier for Seamless Video-Language Understanding Handong Li Yiyuan Zhang Longteng Guo Xiangyu Yue Jing Liu VLM 133 1 0 24 Mar 2025
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey Yansen Wang Shengqiong Wu Yize Zhang William Yang Wang Ziwei Liu Jiebo Luo Hao Fei LRM 138 23 0 16 Mar 2025
LIMO: Less is More for Reasoning Yixin Ye Zhen Huang Yang Xiao Ethan Chern Shijie Xia Pengfei Liu LRM 124 132 0 05 Feb 2025
Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos Kairui Hu Penghao Wu Fanyi Pu Wang Xiao Yize Zhang Xiang Yue Bo Li Ziqiang Liu 55 19 0 23 Jan 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 303 1,503 0 22 Jan 2025
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output Pan Zhang Xiaoyi Dong Yuhang Zang Yuhang Cao Rui Qian ... Kai Chen Jifeng Dai Yu Qiao Dahua Lin Jiaqi Wang 82 108 0 03 Jul 2024
VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding Yue Fan Xiaojian Ma Rujie Wu Yuntao Du Jiaqi Li Zhi Gao Qing Li VLM LLMAG 86 61 0 18 Mar 2024
CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal Models with Multiple Image Inputs Daoan Zhang Junming Yang Hanjia Lyu Zijian Jin Yuan Yao Mingkai Chen Jiebo Luo 72 35 0 05 Jan 2024
EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding K. Mangalam Raiymbek Akshulakov Jitendra Malik 75 275 0 17 Aug 2023
Perception Test: A Diagnostic Benchmark for Multimodal Video Models Viorica Puatruaucean Lucas Smaira Ankush Gupta Adrià Recasens Continente L. Markeeva ... Y. Aytar Simon Osindero Dima Damen Andrew Zisserman João Carreira VLM 144 155 0 23 May 2023
Sigmoid Loss for Language Image Pre-Training Xiaohua Zhai Basil Mustafa Alexander Kolesnikov Lucas Beyer CLIP VLM 116 1,076 0 27 Mar 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 890 13,788 0 15 Mar 2023
Automatic Prompt Augmentation and Selection with Chain-of-Thought from Labeled Data Kashun Shum Shizhe Diao Tong Zhang ReLM LRM 46 133 0 24 Feb 2023
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 616 9,009 0 28 Jan 2022