A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains

1 February 2024

Papers citing "A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains"

21 / 21 papers shown

Title
xVerify: Efficient Answer Verifier for Reasoning Model Evaluations Ding Chen Qingchen Yu P. Wang W. Zhang Bo Tang Feiyu Xiong X. Li Minchuan Yang Z. Li ALM LRM 36 2 0 14 Apr 2025
FactCG: Enhancing Fact Checkers with Graph-Based Multi-Hop Data Deren Lei Yaxi Li Siyao Li Mengya Hu Rui Xu Ken Archer Mingyu Wang Emily Ching Alex Deng SyDa HILM LRM 73 1 0 28 Jan 2025
Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation S. Ramprasad Byron C. Wallace LLMAG HILM 87 2 0 25 Nov 2024
MiCEval: Unveiling Multimodal Chain of Thought's Quality via Image Description and Reasoning Steps Xiongtao Zhou Jie He Lanyu Chen Jingyu Li Haojing Chen Víctor Gutiérrez-Basulto Jeff Z. Pan H. Chen LRM 57 1 0 18 Oct 2024
FLARE: Faithful Logic-Aided Reasoning and Exploration Erik Arakelyan Pasquale Minervini Pat Verga Patrick Lewis Isabelle Augenstein ReLM LRM 63 2 0 14 Oct 2024
Rationale-Aware Answer Verification by Pairwise Self-Evaluation Akira Kawabata Saku Sugawara LRM 31 3 0 07 Oct 2024
Defining Knowledge: Bridging Epistemology and Large Language Models Constanza Fierro Ruchira Dhar Filippos Stamatiou Nicolas Garneau Anders Søgaard KELM 23 4 0 03 Oct 2024
Zero-shot Factual Consistency Evaluation Across Domains Raunak Agarwal HILM 39 0 0 07 Aug 2024
CoverBench: A Challenging Benchmark for Complex Claim Verification Alon Jacovi Moran Ambar Eyal Ben-David Uri Shaham Amir Feder Mor Geva Dror Marcus Avi Caciularu LMTD 49 3 0 06 Aug 2024
Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models Nitzan Bitton-Guetta Aviv Slobodkin Aviya Maimon Eliya Habba Royi Rassin Yonatan Bitton Idan Szpektor Amir Globerson Yuval Elovici ReLM VLM LRM 43 5 0 28 Jul 2024
Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors Nico Daheim Jakub Macina Manu Kapur Iryna Gurevych Mrinmaya Sachan LRM 40 5 0 12 Jul 2024
Chain-of-Probe: Examining the Necessity and Accuracy of CoT Step-by-Step Zezhong Wang Xingshan Zeng Weiwen Liu Yufei Wang Liangyou Li Yasheng Wang Lifeng Shang Xin Jiang Qun Liu Kam-Fai Wong LRM 56 3 0 23 Jun 2024
Small Language Models Need Strong Verifiers to Self-Correct Reasoning Yunxiang Zhang Muhammad Khalifa Lajanugen Logeswaran Jaekyeom Kim Moontae Lee Honglak Lee Lu Wang LRM KELM ReLM 28 31 0 26 Apr 2024
MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents Liyan Tang Philippe Laban Greg Durrett HILM SyDa 40 74 0 16 Apr 2024
CoDA: Instructive Chain-of-Domain Adaptation with Severity-Aware Visual Prompt Tuning Ziyang Gong Fuhao Li Yupeng Deng Deblina Bhattacharjee Xianzheng Ma Xiangwei Zhu Zhenming Ji 70 9 0 26 Mar 2024
Self-Contradictory Reasoning Evaluation and Detection Ziyi Liu Isabelle G. Lee Yongkang Du Soumya Sanyal Jieyu Zhao LRM 30 2 0 16 Nov 2023
How Language Model Hallucinations Can Snowball Muru Zhang Ofir Press William Merrill Alisa Liu Noah A. Smith HILM LRM 82 253 0 22 May 2023
Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations Jaehun Jung Lianhui Qin Sean Welleck Faeze Brahman Chandra Bhagavatula Ronan Le Bras Yejin Choi ReLM LRM 223 190 0 24 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 314 3,237 0 21 Mar 2022
Explaining Answers with Entailment Trees Bhavana Dalvi Peter Alexander Jansen Oyvind Tafjord Zhengnan Xie Hannah Smith Leighanna Pipatanangkura Peter Clark ReLM FAtt LRM 239 184 0 17 Apr 2021
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies Mor Geva Daniel Khashabi Elad Segal Tushar Khot Dan Roth Jonathan Berant RALM 250 673 0 06 Jan 2021