Sherlock: Self-Correcting Reasoning in Vision-Language Models

28 May 2025

Papers citing "Sherlock: Self-Correcting Reasoning in Vision-Language Models"

39 / 39 papers shown

Title
NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation Xiangyan Liu Jinjie Ni Zijian Wu Chao Du Longxu Dou Haoran Wang Tianyu Pang Michael Shieh OffRL LRM 363 7 0 17 Apr 2025
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models Jinguo Zhu Weiyun Wang Zhe Chen Ziwei Liu Shenglong Ye ... Dahua Lin Yu Qiao Jifeng Dai Wenhai Wang Wei Wang MLLM VLM 106 56 1 14 Apr 2025
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement Xinze Wang Zhiyong Yang Chao Feng Hongjin Lu Linjie Li Chung-Ching Lin Kevin Qinghong Lin Furong Huang Lijuan Wang OODD ReLM LRM VLM 131 12 0 10 Apr 2025
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning Haozhe Wang Chao Qu Zuming Huang Wei Chu Fangzhen Lin Wenhu Chen OffRL ReLM SyDa LRM VLM 110 17 0 10 Apr 2025
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models Hardy Chen Haoqin Tu Fali Wang Hui Liu Xianfeng Tang Xinya Du Yuyin Zhou Cihang Xie ReLM VLM OffRL LRM 113 20 0 10 Apr 2025
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization Jingyi Zhang Jiaxing Huang Huanjin Yao Shunyu Liu Xikun Zhang Shijian Lu Dacheng Tao LRM 120 45 0 17 Mar 2025
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization Yi Yang Xiaoxuan He Hongkun Pan Xiyan Jiang Yan Deng ... Dacheng Yin Fengyun Rao Minfeng Zhu Bo Zhang Wei Chen VLM LRM 95 52 1 13 Mar 2025
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL Yingzhe Peng Gongrui Zhang Miaosen Zhang Zhiyuan You Jie Liu Qipeng Zhu Kai Yang Xingzhong Xu Xin Geng Xu Yang LRM ReLM 154 52 0 10 Mar 2025
Self-rewarding correction for mathematical reasoning Wei Xiong Hanning Zhang Chenlu Ye Lichang Chen Nan Jiang Tong Zhang ReLM KELM LRM 110 13 0 26 Feb 2025
Qwen2.5-VL Technical Report S. Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge ... Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu Junyang Lin VLM 178 430 0 20 Feb 2025
MM-Verify: Enhancing Multimodal Reasoning with Chain-of-Thought Verification Linzhuang Sun Hao Liang Jingxuan Wei Bihui Yu Tianpeng Li Fan Yang Guosheng Dong Wentao Zhang LRM 105 10 0 20 Feb 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 276 1,503 0 22 Jan 2025
Kimi k1.5: Scaling Reinforcement Learning with LLMs Kimi Team Angang Du Bofei Gao Bowei Xing Changjiu Jiang ... Zihao Huang Ziyao Xu Zhiyong Yang Zonghan Yang Zongyu Lin OffRL ALM AI4TS VLM LRM 214 250 0 22 Jan 2025
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs Omkar Thawakar Dinura Dissanayake Ketan More Ritesh Thawkar Ahmed Heakl ... Hisham Cholakkal Ivan Laptev Mubarak Shah Fahad Shahbaz Khan Salman Khan VLM LRM 93 46 0 10 Jan 2025
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale Jarvis Guo Tuney Zheng Yuelin Bai Bo Li Yubo Wang King Zhu Yizhi Li Graham Neubig Wenhu Chen Xiang Yue LRM 120 36 0 06 Dec 2024
Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning Di Zhang Jingdi Lei Junxian Li Xunzhi Wang Yong Liu ... Steve Yang Jianbo Wu Peng Ye Wanli Ouyang Dongzhan Zhou OffRL LRM 133 7 0 27 Nov 2024
LLaVA-Critic: Learning to Evaluate Multimodal Models Tianyi Xiong Xinze Wang Dong Guo Qinghao Ye Haoqi Fan Quanquan Gu Heng Huang Chunyuan Li MLLM VLM LRM 86 43 0 03 Oct 2024
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models Haodong Duan Junming Yang Junming Yang Xinyu Fang Lin Chen ... Yuhang Zang Pan Zhang Jiaqi Wang Dahua Lin Kai Chen LM&MA VLM 99 142 0 16 Jul 2024
LLM Critics Help Catch LLM Bugs Nat McAleese Rai Michael Pokorny Juan Felipe Cerón Uribe Evgenia Nitishinskaya Maja Trebacz Jan Leike ALM LRM 55 71 0 28 Jun 2024
When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs Ryo Kamoi Yusen Zhang Nan Zhang Jiawei Han Rui Zhang LRM 84 71 0 03 Jun 2024
Self-Improving Robust Preference Optimization Eugene Choi Arash Ahmadian Matthieu Geist Oilvier Pietquin M. G. Azar 50 9 0 03 Jun 2024
Small Language Models Need Strong Verifiers to Self-Correct Reasoning Yunxiang Zhang Muhammad Khalifa Lajanugen Logeswaran Jaekyeom Kim Moontae Lee Honglak Lee Lu Wang LRM KELM ReLM 63 38 0 26 Apr 2024
Are We on the Right Way for Evaluating Large Vision-Language Models? Lin Chen Jinsong Li Xiao-wen Dong Pan Zhang Yuhang Zang ... Haodong Duan Jiaqi Wang Yu Qiao Dahua Lin Feng Zhao VLM 94 245 0 29 Mar 2024
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? Renrui Zhang Dongzhi Jiang Yichi Zhang Haokun Lin Ziyu Guo ... Aojun Zhou Pan Lu Kai-Wei Chang Peng Gao Hongsheng Li 50 205 0 21 Mar 2024
LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models Yaowei Zheng Richong Zhang Junhao Zhang Yanhan Ye Zheyan Luo Zhangchi Feng Yongqiang Ma 101 479 0 20 Mar 2024
Do Large Language Models Latently Perform Multi-Hop Reasoning? Sohee Yang E. Gribovskaya Nora Kassner Mor Geva Sebastian Riedel ReLM LRM 91 98 0 26 Feb 2024
Nash Learning from Human Feedback Rémi Munos Michal Valko Daniele Calandriello M. G. Azar Mark Rowland ... Nikola Momchev Olivier Bachem D. Mankowitz Doina Precup Bilal Piot 76 137 0 01 Dec 2023
MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI Xiang Yue Yuansheng Ni Kai Zhang Tianyu Zheng Ruoqi Liu ... Yibo Liu Wenhao Huang Huan Sun Yu-Chuan Su Wenhu Chen OSLM ELM VLM 153 833 0 27 Nov 2023
LLMs cannot find reasoning errors, but can correct them given the error location Gladys Tyen Hassan Mansoor Victor Carbune Peter Chen Tony Mak LRM 77 79 0 14 Nov 2023
HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models Tianrui Guan Fuxiao Liu Xiyang Wu Ruiqi Xian Zongxia Li ... Lichang Chen Furong Huang Yaser Yacoob Dinesh Manocha Dinesh Manocha VLM MLLM 74 171 0 23 Oct 2023
A General Theoretical Paradigm to Understand Learning from Human Preferences M. G. Azar Mark Rowland Bilal Piot Daniel Guo Daniele Calandriello Michal Valko Rémi Munos 155 597 0 18 Oct 2023
MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts Pan Lu Hritik Bansal Tony Xia Jiacheng Liu Chun-yue Li Hannaneh Hajishirzi Hao Cheng Kai-Wei Chang Michel Galley Jianfeng Gao LRM MLLM 79 541 0 03 Oct 2023
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities Weihao Yu Zhengyuan Yang Linjie Li Jianfeng Wang Kevin Qinghong Lin Zicheng Liu Xinchao Wang Lijuan Wang MLLM 87 656 0 04 Aug 2023
MMBench: Is Your Multi-modal Model an All-around Player? Yuanzhan Liu Haodong Duan Yuanhan Zhang Yue Liu Songyang Zhang ... Jiaqi Wang Conghui He Ziwei Liu Kai-xiang Chen Dahua Lin 74 992 0 12 Jul 2023
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Rafael Rafailov Archit Sharma E. Mitchell Stefano Ermon Christopher D. Manning Chelsea Finn ALM 295 3,712 0 29 May 2023
Visual Instruction Tuning Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 370 4,607 0 17 Apr 2023
Self-Refine: Iterative Refinement with Self-Feedback Aman Madaan Niket Tandon Prakhar Gupta Skyler Hallinan Luyu Gao ... Bodhisattwa Prasad Majumder Katherine Hermann Sean Welleck Amir Yazdanbakhsh Peter Clark ReLM LRM DiffM 112 1,577 0 30 Mar 2023
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 613 9,009 0 28 Jan 2022
A Diagram Is Worth A Dozen Images Aniruddha Kembhavi M. Salvato Eric Kolve Minjoon Seo Hannaneh Hajishirzi Ali Farhadi 3DV 47 472 0 24 Mar 2016