Making Large Language Models Better Reasoners with Step-Aware Verifier

6 June 2022

Papers citing "Making Large Language Models Better Reasoners with Step-Aware Verifier"

42 / 42 papers shown

Title
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models Xiaobao Wu LRM 72 1 0 05 May 2025
When Reasoning Beats Scale: A 1.5B Reasoning Model Outranks 13B LLMs as Discriminator Md Fahim Anjum LRM 27 0 0 30 Apr 2025
DISC: Dynamic Decomposition Improves LLM Inference Scaling Jonathan Light Wei Cheng Wu Yue Masafumi Oyamada Mengdi Wang Santiago Paternain Haifeng Chen ReLM LRM 56 2 0 23 Feb 2025
video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model Guangzhi Sun Yudong Yang Jimin Zhuang Changli Tang Y. Li W. Li Z. Ma Chao Zhang LRM MLLM VLM 64 3 0 17 Feb 2025
A Critical Look At Tokenwise Reward-Guided Text Generation Ahmad Rashid Ruotian Wu Julia Grosse Agustinus Kristiadi Pascal Poupart OffRL 68 0 0 17 Feb 2025
Preference Optimization for Reasoning with Pseudo Feedback Fangkai Jiao Geyang Guo Xingxing Zhang Nancy F. Chen Shafiq R. Joty Furu Wei LRM 99 9 0 17 Feb 2025
ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates L. Yang Zhaochen Yu Bin Cui Mengdi Wang ReLM LRM AI4CE 96 10 0 10 Feb 2025
The Best Instruction-Tuning Data are Those That Fit Dylan Zhang Qirun Dai Hao Peng ALM 115 3 0 06 Feb 2025
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking Jinyang Wu Mingkuan Feng Shuai Zhang Ruihan Jin Feihu Che Zengqi Wen J. Tao LRM 68 8 0 04 Feb 2025
SecPE: Secure Prompt Ensembling for Private and Robust Large Language Models Jiawen Zhang Kejia Chen Zunlei Feng Jian Lou Mingli Song J. Liu X. J. Yang AAML SILM FedML 43 1 0 02 Feb 2025
WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct Haipeng Luo Qingfeng Sun Can Xu Pu Zhao Jian-Guang Lou ... Xiubo Geng Qingwei Lin Shifeng Chen Yansong Tang Dongmei Zhang OSLM LRM 108 408 0 03 Jan 2025
Mathematical Language Models: A Survey W. Liu Hanglei Hu Jie Zhou Yuyang Ding Junsong Li ... Mengliang He Qin Chen Bo Jiang Aimin Zhou Liang He LRM 79 12 0 03 Jan 2025
Markov Chain of Thought for Efficient Mathematical Reasoning Wen Yang Kai Fan Minpeng Liao LRM 37 4 0 23 Oct 2024
MiCEval: Unveiling Multimodal Chain of Thought's Quality via Image Description and Reasoning Steps Xiongtao Zhou Jie He Lanyu Chen Jingyu Li Haojing Chen Víctor Gutiérrez-Basulto Jeff Z. Pan H. Chen LRM 55 1 0 18 Oct 2024
Process Reward Model with Q-Value Rankings W. Li Yixuan Li LRM 45 14 0 15 Oct 2024
Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs Ishan Jindal Chandana Badrinath Pranjal Bharti Lakkidi Vinay Sachin Dev Sharma CLL ALM 26 2 0 14 Oct 2024
Towards the Pedagogical Steering of Large Language Models for Tutoring: A Case Study with Modeling Productive Failure Romain Puech Jakub Macina Julia Chatain Mrinmaya Sachan Manu Kapur AI4Ed 40 1 0 03 Oct 2024
Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo Shengyu Feng Xiang Kong Shuang Ma Aonan Zhang Dong Yin Chong-Jun Wang Ruoming Pang Yiming Yang LRM 25 0 0 02 Oct 2024
Seek and Solve Reasoning for Table Question Answering Ruya Jiang Chun Wang Weihong Deng LMTD ReLM LRM 38 2 0 09 Sep 2024
CAVE: Controllable Authorship Verification Explanations Sahana Ramnath Kartik Pandey Elizabeth Boschee Xiang Ren 59 1 0 24 Jun 2024
Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models Zhangyue Yin Qiushi Sun Qipeng Guo Zhiyuan Zeng Xiaonan Li ... Qinyuan Cheng Ding Wang Xiaofeng Mou Xipeng Qiu XuanJing Huang LRM 41 3 0 21 May 2024
DuetSim: Building User Simulator with Dual Large Language Models for Task-Oriented Dialogues Xiang Luo Zhiwen Tang Jin Wang Xuejie Zhang 26 4 0 16 May 2024
Optimizing Language Model's Reasoning Abilities with Weak Supervision Yongqi Tong Sizhe Wang Dawei Li Yifan Wang Simeng Han Zi Lin Chengsong Huang Jiaxin Huang Jingbo Shang LRM ReLM 32 8 0 07 May 2024
Small Language Models Need Strong Verifiers to Self-Correct Reasoning Yunxiang Zhang Muhammad Khalifa Lajanugen Logeswaran Jaekyeom Kim Moontae Lee Honglak Lee Lu Wang LRM KELM ReLM 23 31 0 26 Apr 2024
Data Augmentation with In-Context Learning and Comparative Evaluation in Math Word Problem Solving Gulsum Yigit M. Amasyalı AIMat 39 1 0 05 Apr 2024
Compositional API Recommendation for Library-Oriented Code Generation Zexiong Ma Shengnan An Bing Xie Zeqi Lin 32 17 0 29 Feb 2024
Demystifying Chains, Trees, and Graphs of Thoughts Maciej Besta Florim Memedi Zhenyu Zhang Robert Gerstenberger Guangyuan Piao ... Aleš Kubíček H. Niewiadomski Aidan O'Mahony Onur Mutlu Torsten Hoefler AI4CE LRM 63 26 0 25 Jan 2024
Universal Self-Consistency for Large Language Model Generation Xinyun Chen Renat Aksitov Uri Alon Jie Jessie Ren Kefan Xiao Pengcheng Yin Sushant Prakash Charles Sutton Xuezhi Wang Denny Zhou LRM 24 65 0 29 Nov 2023
AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations Zhicheng YANG Yinya Huang Jing Xiong Liang Feng Xiaodan Liang Yiwei Wang Jing Tang LRM 23 1 0 22 Nov 2023
Towards A Unified View of Answer Calibration for Multi-Step Reasoning Shumin Deng Ningyu Zhang Nay Oo Bryan Hooi LRM 30 1 0 15 Nov 2023
Improving Large Language Model Fine-tuning for Solving Math Problems Yixin Liu Avi Singh C. D. Freeman John D. Co-Reyes Peter J. Liu LRM ReLM 35 45 0 16 Oct 2023
Don't throw away your value model! Generating more preferable text with Value-Guided Monte-Carlo Tree Search decoding Jiacheng Liu Andrew Cohen Ramakanth Pasunuru Yejin Choi Hannaneh Hajishirzi Asli Celikyilmaz 16 22 0 26 Sep 2023
PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine Chenrui Zhang Lina Liu Jinpeng Wang Chuyuan Wang Xiaodi Sun Hongyu Wang Mingchen Cai LLMAG 32 23 0 23 Aug 2023
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 293 4,077 0 24 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 297 3,236 0 21 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,448 0 28 Jan 2022
Reasoning Like Program Executors Xinyu Pi Qian Liu Bei Chen Morteza Ziyadi Zeqi Lin Qiang Fu Yan Gao Jian-Guang Lou Weizhu Chen ReLM LRM 246 52 0 27 Jan 2022
Human Parity on CommonsenseQA: Augmenting Self-Attention with External Attention Yichong Xu Chenguang Zhu Shuohang Wang Siqi Sun Hao Cheng Xiaodong Liu Jianfeng Gao Pengcheng He Michael Zeng Xuedong Huang LRM 246 55 0 06 Dec 2021
Turning Tables: Generating Examples from Semi-structured Tables for Endowing Language Models with Reasoning Skills Ori Yoran Alon Talmor Jonathan Berant ReLM LRM 175 53 0 15 Jul 2021
Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity Yao Lu Max Bartolo Alastair Moore Sebastian Riedel Pontus Stenetorp AILaw LRM 277 1,117 0 18 Apr 2021
What Makes Good In-Context Examples for GPT- $3$ ? Jiachang Liu Dinghan Shen Yizhe Zhang Bill Dolan Lawrence Carin Weizhu Chen AAML RALM 275 1,312 0 17 Jan 2021
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies Mor Geva Daniel Khashabi Elad Segal Tushar Khot Dan Roth Jonathan Berant RALM 245 671 0 06 Jan 2021