Title
Reinforcement Learning for Large Model: A Survey Weijia Wu Chen Gao Joya Chen Kevin Lin Qingwei Meng Yiming Zhang Yuke Qiu Hong Zhou Mike Zheng Shou 269 2 0 24 Dec 2025
Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding Keliang Liu Zizhi Chen Mingcheng Li Jingqun Tang Dingkang Yang Lihua Zhang RALM 72 0 0 28 Nov 2025
BBox DocVQA: A Large Scale Bounding Box Grounded Dataset for Enhancing Reasoning in Document Visual Question Answer Wenhan Yu Wang Chen Guanqiang Qi Weikang Li Yang Li Lei Sha Deguo Xia Jizhou Huang 73 1 0 19 Nov 2025
DeepEyesV2: Toward Agentic Multimodal ModelIEEE Transactions on Audio, Speech, and Language Processing (TASLP), 2025 Jack Hong Chenxiao Zhao ChengLin Zhu Weiheng Lu Guohai Xu Xing Yu 122 3 0 07 Nov 2025
Proactive Reasoning-with-Retrieval Framework for Medical Multimodal Large Language Models Lehan Wang Yi Qin Honglong Yang Xiaomeng Li LRM 136 0 0 21 Oct 2025
A Comprehensive Survey on Reinforcement Learning-based Agentic Search: Foundations, Roles, Optimizations, Evaluations, and Applications Minhua Lin Zongyu Wu Zhichao Xu Hui Liu Xianfeng Tang Qi He Charu C. Aggarwal Hui Liu Xiang Zhang Suhang Wang AI4TS LRM 470 1 0 19 Oct 2025
Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding Sensen Gao Shanshan Zhao Xu Jiang Lunhao Duan Yong Xien Chng Qing-Guo Chen Weihua Luo Kaifu Zhang Jia-Wang Bian Mingming Gong 194 0 0 17 Oct 2025
A Survey on Agentic Multimodal Large Language Models Huanjin Yao Ruifei Zhang Jiaxing Huang Jingyi Zhang Yibo Wang ... Ruolin Zhu Yongcheng Jing Shunyu Liu Guanbin Li Dacheng Tao LM&Ro AIFin AI4TS LRM AI4CE 221 4 0 13 Oct 2025
VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning Q. Wang Jie Liu Jiajun Liang Yilei Jiang Yuanxing Zhang ... Y. Zheng Xintao Wang Pengfei Wan Xiangyu Yue Jiaheng Liu OffRL VGen LRM 301 1 0 12 Oct 2025
UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG Xiangyu Peng Cab Qin Zeyuan Chen Ran Xu Caiming Xiong Chien-Sheng Wu VLM 174 0 0 04 Oct 2025
Self-Improvement in Multimodal Large Language Models: A Survey Shijian Deng Kai Wang Tianyu Yang Harsh Singh Yapeng Tian LRM 132 0 0 03 Oct 2025
Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models Y. Zeng Hao Wu Shiting Huang Xikun Bao Yukun Qi ... Lin Chen Zehui Chen H. G. Chen Wanli Ouyang Feng Zhao LRM VLM 144 3 0 01 Oct 2025
Tree Search for LLM Agent Reinforcement Learning Yuxiang Ji Ziyu Ma Yong Wang Guanhua Chen Xiangxiang Chu Liaoni Wu 128 3 0 25 Sep 2025
Reinforcement Learning Foundations for Deep Research Systems: A Survey Wenjun Li Z. Chen Jingru Lin Hannan Cao Wei Han ... Zhi Zhang Kuicai Dong Dexun Li Chen Zhang Yong Liu OffRL 183 4 0 08 Sep 2025
CMRAG: Co-modality-based visual document retrieval and question answering Wang Chen Guanqiang Qi Guanqiang Qi Yang Li Yang Li Lei Sha Deguo Xia Jizhou Huang 185 0 0 02 Sep 2025
Deep Research: A Survey of Autonomous Research Agents Wenlin Zhang Xiaopeng Li Yingyi Zhang Pengyue Jia Yichao Wang Huifeng Guo Yong Liu Xiangyu Zhao LLMAG 96 9 0 18 Aug 2025
A Survey of LLM-based Deep Search Agents: Paradigm, Optimization, Evaluation, and Challenges Yunjia Xi Jianghao Lin Yongzhao Xiao Zheli Zhou Rong Shan Te Gao Jiachen Zhu Weiwen Liu Yong Yu Weinan Zhang LLMAG ELM 259 15 0 03 Aug 2025
LastingBench: Defend Benchmarks Against Knowledge Leakage Yixiong Fang Tianran Sun Yuling Shi Min Wang Xiaodong Gu KELM 244 4 0 21 Jun 2025
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning Zihan Wang Kaidi Wang Q. Wang Pingyue Zhang Linjie Li ... Jiajun Wu L. Fei-Fei Lijuan Wang Yejin Choi Pengfei Yu 626 110 0 24 Apr 2025
Perception-R1: Pioneering Perception Policy with Reinforcement Learning En Yu Kangheng Lin Liang Zhao Jisheng Yin Yana Wei ... Zheng Ge Xiangyu Zhang Daxin Jiang Jingyu Wang Wenbing Tao VLM OffRL LRM 267 52 0 10 Apr 2025
ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning M. Ben-Chen Tianpeng Li Haoze Sun Haoze Sun Yijie Zhou ... Haofen Wang Jeff Z. Pan Wen Zhang Ningyu Zhang Weipeng Chen ReLM OffRL AI4TS LRM 452 56 0 25 Mar 2025
AttentionRAG: Attention-Guided Context Pruning in Retrieval-Augmented Generation Yixiong Fang Tianran Sun Yuling Shi Xiaodong Gu 358 2 0 13 Mar 2025
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning Sara Szymkuć Hansi Zeng Zhenrui Yue Jinsung Yoon Sercan O. Arik Dong Wang Hamed Zamani Jiawei Han OffRL AI4TS LRM RALM ReLM KELM 732 523 0 12 Mar 2025
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models Hao Wu Bohan Jia Zijie Zhai Shaosheng Cao Zheyu Ye Fei Zhao Zhe Xu Yao Hu Shaohui Lin MU OffRL LRM MLLM ReLM VLM 489 338 0 09 Mar 2025
ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents Qiuchen Wang Ruixue Ding Zehui Chen Weiqi Wu Shihang Wang Pengjun Xie Feng Zhao 251 29 0 25 Feb 2025
Introducing Visual Perception Token into Multimodal Large Language Model Runpeng Yu Xinyin Ma Xinchao Wang MLLM LRM 286 11 0 24 Feb 2025
Qwen2.5-VL Technical Report S. Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge ... Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu Junyang Lin VLM 651 2,676 0 20 Feb 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 1.2K 5,266 0 22 Jan 2025
WebWalker: Benchmarking LLMs in Web TraversalAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Jialong Wu Wenbiao Yin Yong Jiang Zhenglin Wang Zekun Xi ... Linhai Zhang Yulan He Deyu Zhou Pengjun Xie Fei Huang 536 77 0 13 Jan 2025
Unfolding the Headline: Iterative Self-Questioning for News Retrieval and Timeline SummarizationNorth American Chapter of the Association for Computational Linguistics (NAACL), 2025 Weiqi Wu Shen Huang Yong Jiang Pengjun Xie Fei Huang Hai Zhao 171 7 0 03 Jan 2025
Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning AgentInternational Conference on Learning Representations (ICLR), 2024 Yangning Li Hai-Tao Zheng Xinyu Wang Yong Jiang Zhen Zhang ... Hui Wang Hai-Tao Zheng Pengjun Xie Philip S. Yu Fei Huang 575 52 0 05 Nov 2024
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality DocumentsInternational Conference on Learning Representations (ICLR), 2024 S. Yu C. Tang Bokai Xu Junbo Cui Junhao Ran ... Zhenghao Liu Kaiyan Zhang Xu Han Zhiyuan Liu Maosong Sun VLM 412 107 0 14 Oct 2024
NV-Retriever: Improving text embedding models with effective hard-negative mining Gabriel de Souza P. Moreira Radek Osmulski Mengyao Xu Ronay Ak Benedikt Schifferer Even Oldridge RALM 290 74 0 22 Jul 2024
ColPali: Efficient Document Retrieval with Vision Language Models Manuel Faysse Hugues Sibille Tony Wu Bilel Omrani Gautier Viaud C´eline Hudelot Pierre Colombo VLM 796 88 0 27 Jun 2024
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models Chankyu Lee Rajarshi Roy Mengyao Xu Jonathan Raiman Mohammad Shoeybi Bryan Catanzaro Ming-Yu Liu RALM 667 367 0 27 May 2024