v1v2 (latest)

Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration

23 May 2025

Papers citing "Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration"

31 / 31 papers shown

Title
Reasoning with Exploration: An Entropy Perspective Daixuan Cheng Shaohan Huang Xuekai Zhu Bo Dai Wayne Xin Zhao Zhenliang Zhang Furu Wei LRM 25 0 0 17 Jun 2025
Improving RL Exploration for LLM Reasoning through Retrospective Replay Shihan Dou Muling Wu Jingwen Xu Rui Zheng Tao Gui Qi Zhang Xuanjing Huang OffRL LRM 77 2 0 19 Apr 2025
Understanding R1-Zero-Like Training: A Critical Perspective Zichen Liu Changyu Chen Wenjun Li Penghui Qi Tianyu Pang Chao Du Wee Sun Lee Min Lin OffRL LRM 228 172 0 26 Mar 2025
DAPO: An Open-Source LLM Reinforcement Learning System at Scale Qiying Yu Zheng Zhang Ruofei Zhu Yufeng Yuan Xiaochen Zuo ... Ya Zhang Lin Yan Mu Qiao Yonghui Wu Mingxuan Wang OffRL LRM 243 217 0 18 Mar 2025
Steering Large Language Model Activations in Sparse Spaces Reza Bayat Ali Rahimi-Kalahroudi Mohammad Pezeshki Sarath Chandar Pascal Vincent LLMSV 84 9 0 28 Feb 2025
On Designing Effective RL Reward at Training Time for LLM Reasoning Jiaxuan Gao Shusheng Xu Wenjie Ye Weilin Liu Chuyi He Wei Fu Zhiyu Mei Guangju Wang Yi Wu OffRL LRM 150 23 0 19 Oct 2024
Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation Yuxuan Zhou Margret Keuper Mario Fritz 73 6 0 24 Aug 2024
Reasoning with Large Language Models, a Survey Aske Plaat Annie Wong Suzan Verberne Joost Broekens Niki van Stein Thomas Back OffRL LRM AI4CE ReLM 59 73 0 16 Jul 2024
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning Yuxi Xie Anirudh Goyal Wenyue Zheng Min-Yen Kan Timothy Lillicrap Kenji Kawaguchi Michael Shieh ReLM LRM 141 126 0 01 May 2024
Stream of Search (SoS): Learning to Search in Language Kanishk Gandhi Denise Lee Gabriel Grand Muxin Liu Winson Cheng Archit Sharma Noah D. Goodman RALM AIFin LRM 100 68 0 01 Apr 2024
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models Zhihong Shao Peiyi Wang Qihao Zhu Runxin Xu Jun-Mei Song ... Haowei Zhang Mingchuan Zhang Yiming Li Yu-Huan Wu Daya Guo ReLM LRM 200 1,288 0 05 Feb 2024
A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications Pranab Sahoo Ayush Kumar Singh Sriparna Saha Vinija Jain S. Mondal Aman Chadha 172 339 0 05 Feb 2024
Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language Model Critique in Text Generation Meng Cao Lei Shu Lei Yu Yun Zhu Nevan Wichers Yinxiao Liu Lei Meng OffRL ALM 51 7 0 14 Jan 2024
Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review Banghao Chen Zhaofeng Zhang Nicolas Langrené Shengxin Zhu LLMAG 110 12 0 23 Oct 2023
Towards Better Chain-of-Thought Prompting Strategies: A Survey Zihan Yu Liang He Zhen Wu Xinyu Dai Jiajun Chen LRM 167 55 0 08 Oct 2023
Navigate through Enigmatic Labyrinth A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future Zheng Chu Jingchang Chen Qianglong Chen Weijiang Yu Tao He Haotian Wang Weihua Peng Ming-Yuan Liu Bing Qin Ting Liu LRM AI4CE 125 175 0 27 Sep 2023
Let's Verify Step by Step Hunter Lightman V. Kosaraju Yura Burda Harrison Edwards Bowen Baker Teddy Lee Jan Leike John Schulman Ilya Sutskever K. Cobbe ALM OffRL LRM 234 1,241 0 31 May 2023
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate Tian Liang Zhiwei He Wenxiang Jiao Xing Wang Rui Wang Yujiu Yang Zhaopeng Tu Shuming Shi LLMAG LRM 123 497 0 30 May 2023
Self-Evaluation Guided Beam Search for Reasoning Yuxi Xie Kenji Kawaguchi Yiran Zhao Xu Zhao MingSung Kan Junxian He Qizhe Xie LRM 260 159 0 01 May 2023
Self-Refine: Iterative Refinement with Self-Feedback Aman Madaan Niket Tandon Prakhar Gupta Skyler Hallinan Luyu Gao ... Bodhisattwa Prasad Majumder Katherine Hermann Sean Welleck Amir Yazdanbakhsh Peter Clark ReLM LRM DiffM 212 1,688 0 30 Mar 2023
Solving math word problems with process- and outcome-based feedback J. Uesato Nate Kushman Ramana Kumar Francis Song Noah Y. Siegel L. Wang Antonia Creswell G. Irving I. Higgins FaML ReLM AIMat LRM 133 362 0 25 Nov 2022
Exploration in Deep Reinforcement Learning: A Survey Pawel Ladosz Lilian Weng Minwoo Kim H. Oh OffRL 93 364 0 02 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 592 3,757 0 21 Mar 2022
Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey Bonan Min Hayley L Ross Elior Sulem Amir Pouran Ben Veyseh Thien Huu Nguyen Oscar Sainz Eneko Agirre Ilana Heinz Dan Roth LM&MA VLM AI4CE 189 1,094 0 01 Nov 2021
Training Verifiers to Solve Math Word Problems K. Cobbe V. Kosaraju Mohammad Bavarian Mark Chen Heewoo Jun ... Jerry Tworek Jacob Hilton Reiichiro Nakano Christopher Hesse John Schulman ReLM OffRL LRM 422 4,608 0 27 Oct 2021
Exploration by Random Network Distillation Yuri Burda Harrison Edwards Amos Storkey Oleg Klimov 163 1,347 0 30 Oct 2018
A Brief Survey of Deep Reinforcement Learning Kai Arulkumaran M. Deisenroth Miles Brundage Anil Anthony Bharath OffRL 143 2,830 0 19 Aug 2017
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 684 19,343 0 20 Jul 2017
Curiosity-driven Exploration by Self-supervised Prediction Deepak Pathak Pulkit Agrawal Alexei A. Efros Trevor Darrell LRM SSL 177 2,455 0 15 May 2017
Count-Based Exploration with Neural Density Models Georg Ostrovski Marc G. Bellemare Aaron van den Oord Rémi Munos 102 626 0 03 Mar 2017
High-Dimensional Continuous Control Using Generalized Advantage Estimation John Schulman Philipp Moritz Sergey Levine Michael I. Jordan Pieter Abbeel OffRL 163 3,444 0 08 Jun 2015