Beyond Áha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models

Beyond Áha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models

15 May 2025

Papers citing "Beyond Áha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models"

16 / 16 papers shown

Title
WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback Minda Hu Tianqing Fang Jianshu Zhang Junyu Ma Zhisong Zhang Jingyan Zhou Hongming Zhang Haitao Mi Dong Yu Irwin King LLMAG LRM 39 0 0 26 May 2025
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce Wei Xiong Jiarui Yao Yuhui Xu Bo Pang Lei Wang ... Junnan Li Nan Jiang Tong Zhang Caiming Xiong Hanze Dong OffRL LRM 66 15 0 15 Apr 2025
Understanding Aha Moments: from External Observations to Internal Mechanisms Shu Yang Junchao Wu Xin Chen Yunze Xiao Xinyi Yang Derek F. Wong Di Wang LRM 63 3 0 03 Apr 2025
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild Weihao Zeng Yuzhen Huang Qian Liu Wei Liu Keqing He Zejun Ma Junxian He OffRL ReLM LRM 118 85 0 24 Mar 2025
R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model Hengguang Zhou Xirui Li Ruochen Wang Minhao Cheng Tianyi Zhou Cho-Jui Hsieh OffRL LRM ReLM 128 43 0 07 Mar 2025
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs Kanishk Gandhi Ayush Chakravarthy Anikait Singh Nathan Lile Noah D. Goodman ReLM LRM 123 60 0 03 Mar 2025
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning Tian Xie Zitian Gao Qingnan Ren Haoming Luo Yuqian Hong Bryan Dai Joey Zhou Kai Qiu Zhirong Wu Chong Luo ReLM OffRL LRM 124 55 0 21 Feb 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 268 1,503 0 22 Jan 2025
GPT-4o System Card OpenAI OpenAI : Aaron Hurst Adam Lerer Adam P. Goucher ... Yuchen He Yuchen Zhang Yujia Jin Yunxing Dai Yury Malkov MLLM 134 750 0 25 Oct 2024
HybridFlow: A Flexible and Efficient RLHF Framework Guangming Sheng Chi Zhang Zilingfeng Ye Xibin Wu Wang Zhang Ru Zhang Size Zheng Haibin Lin Chuan Wu AI4CE 94 171 0 28 Sep 2024
Arcee's MergeKit: A Toolkit for Merging Large Language Models Charles Goddard Shamane Siriwardhana Malikeh Ehghaghi Luke Meyers Vladimir Karpukhin Brian Benedict Mark McQuade Jacob Solawetz MoMe KELM 120 93 0 20 Mar 2024
LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code Naman Jain King Han Alex Gu Wen-Ding Li Fanjia Yan Tianjun Zhang Sida I. Wang Armando Solar-Lezama Koushik Sen Ion Stoica ELM 77 365 0 12 Mar 2024
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models Zhihong Shao Peiyi Wang Qihao Zhu Runxin Xu Jun-Mei Song ... Haowei Zhang Mingchuan Zhang Yiming Li Yu-Huan Wu Daya Guo ReLM LRM 94 953 0 05 Feb 2024
GPQA: A Graduate-Level Google-Proof Q&A Benchmark David Rein Betty Li Hou Asa Cooper Stickland Jackson Petty Richard Yuanzhe Pang Julien Dirani Julian Michael Samuel R. Bowman AI4MH ELM 72 627 0 20 Nov 2023
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 611 9,009 0 28 Jan 2022
Measuring Mathematical Problem Solving With the MATH Dataset Dan Hendrycks Collin Burns Saurav Kadavath Akul Arora Steven Basart Eric Tang D. Song Jacob Steinhardt ReLM FaML 129 2,109 0 05 Mar 2021