Can We Verify Step by Step for Incorrect Answer Detection?

16 February 2024

Papers citing "Can We Verify Step by Step for Incorrect Answer Detection?"

20 / 20 papers shown

Title
SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair Zaoyu Chen Haoran Qin Nuo Chen Xiangyu Zhao Lei Xue Xiapu Luo Xiao-Ming Wu 36 0 0 03 Mar 2025
S^3cMath: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners Yuchen Yan Jin Jiang Yang Liu Yixin Cao Xin Xu M. Zhang Xunliang Cai Jian Shao ReLM LRM KELM 108 7 0 21 Feb 2025
MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task Yuchen Yan Yongliang Shen Yang Liu Jin Jiang Xin Xu M. Zhang Jian Shao Yueting Zhuang ReLM LRM 43 2 0 17 Feb 2025
Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving Xin Xu Yan Xu Tianhao Chen Yuchen Yan Chengwu Liu ... Y. Wang Yichun Yin Y. Wang Lifeng Shang Q. Liu LRM 46 2 0 17 Feb 2025
UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models Xin Xu Qiyun Xu Tong Xiao Tianhao Chen Yuchen Yan Jiaxin Zhang Shizhe Diao Can Yang Yang Wang ELM LRM AI4CE 66 2 0 01 Feb 2025
Cascaded Self-Evaluation Augmented Training for Lightweight Multimodal LLMs Zheqi Lv Wenkai Wang Jiawei Wang Shengyu Zhang Fei Wu LRM ReLM 46 0 0 10 Jan 2025
VeraCT Scan: Retrieval-Augmented Fake News Detection with Justifiable Reasoning Cheng Niu Yang Guan Yuanhao Wu Juno Zhu Juntong Song Randy Zhong Kaihua Zhu Siliang Xu Shizhe Diao Tong Zhang 21 1 0 12 Jun 2024
Can LLMs Solve longer Math Word Problems Better? Xin Xu Tong Xiao Zitong Chao Zhenya Huang Can Yang Yang Wang 51 10 0 23 May 2024
Small Language Models Need Strong Verifiers to Self-Correct Reasoning Yunxiang Zhang Muhammad Khalifa Lajanugen Logeswaran Jaekyeom Kim Moontae Lee Honglak Lee Lu Wang LRM KELM ReLM 23 22 0 26 Apr 2024
FMint: Bridging Human Designed and Data Pretrained Models for Differential Equation Foundation Model Zezheng Song Jiaxin Yuan Haizhao Yang AI4CE 36 15 0 23 Apr 2024
Natural Language Embedded Programs for Hybrid Language Symbolic Reasoning Tianhua Zhang Jiaxin Ge Hongyin Luo Yung-Sung Chuang Mingye Gao Yuan Gong Xixin Wu Yoon Kim Helen M. Meng James R. Glass LRM ReLM 66 10 0 19 Sep 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 197 2,232 0 22 Mar 2023
Active Prompting with Chain-of-Thought for Large Language Models Shizhe Diao Pengcheng Wang Yong Lin Tong Zhang ReLM KELM LLMAG LRM 8 100 0 23 Feb 2023
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 208 2,413 0 06 Oct 2022
Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought Abulhair Saparov He He ELM LRM ReLM 116 270 0 03 Oct 2022
Complexity-Based Prompting for Multi-Step Reasoning Yao Fu Hao-Chun Peng Ashish Sabharwal Peter Clark Tushar Khot ReLM LRM 152 298 0 03 Oct 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 2,712 0 24 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 297 3,163 0 21 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies Mor Geva Daniel Khashabi Elad Segal Tushar Khot Dan Roth Jonathan Berant RALM 242 460 0 06 Jan 2021