Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought

3 October 2022

Papers citing "Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought"

39 / 39 papers shown

Title
TRAVELER: A Benchmark for Evaluating Temporal Reasoning across Vague, Implicit and Explicit References Svenja Kenneweg J. Deigmöller Philipp Cimiano Julian Eggert 35 0 0 02 May 2025
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong X. Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Yu Jiang ALM ELM 84 0 0 26 Apr 2025
Scaling Laws For Scalable Oversight Joshua Engels David D. Baek Subhash Kantamneni Max Tegmark ELM 65 0 0 25 Apr 2025
L0-Reasoning Bench: Evaluating Procedural Correctness in Language Models via Simple Program Execution Simeng Sun Cheng-Ping Hsieh Faisal Ladhak Erik Arakelyan Santiago Akle Serano Boris Ginsburg ReLM ELM LRM 32 0 0 28 Mar 2025
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models Zhanke Zhou Zhaocheng Zhu Xuan Li Mikhail Galkin Xiao Feng Sanmi Koyejo Jian Tang Bo Han LRM 29 0 0 28 Mar 2025
BIG-Bench Extra Hard Mehran Kazemi Bahare Fatemi Hritik Bansal John Palowitch Chrysovalantis Anastasiou ... Kate Olszewska Yi Tay Vinh Q. Tran Quoc V. Le Orhan Firat ELM LRM 107 4 0 26 Feb 2025
Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps Yen-Che Hsiao Abhishek Dutta LRM ReLM ELM 47 0 0 24 Feb 2025
Quantifying Logical Consistency in Transformers via Query-Key Alignment Eduard Tulchinskii Anastasia Voznyuk Laida Kushnareva Andrei Andriiainen Irina Piontkovskaya Evgeny Burnaev Serguei Barannikov LRM 57 0 0 24 Feb 2025
Reasoning Bias of Next Token Prediction Training Pengxiao Lin Zhongwang Zhang Zhi-Qin John Xu LRM 78 1 0 21 Feb 2025
MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs Andreas Opedal Haruki Shirakami Bernhard Schölkopf Abulhair Saparov Mrinmaya Sachan LRM 42 1 0 17 Feb 2025
Logical forms complement probability in understanding language model (and human) performance Yixuan Wang Freda Shi ReLM LRM 66 2 0 13 Feb 2025
Bag of Tricks for Inference-time Computation of LLM Reasoning Fan Liu Wenshuo Chao Naiqiang Tan Hao Liu OffRL LRM 58 3 0 11 Feb 2025
Policy Guided Tree Search for Enhanced LLM Reasoning Yang Li LRM 38 0 0 04 Feb 2025
Turbulence: Systematically and Automatically Testing Instruction-Tuned Large Language Models for Code Shahin Honarvar Mark van der Wilk Alastair Donaldson 64 6 0 28 Jan 2025
Neuro-Symbolic AI in 2024: A Systematic Review Brandon C. Colelough William Regli NAI 38 9 0 09 Jan 2025
Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies L. Wang Sheng Chen Linnan Jiang Shu Pan Runze Cai Sen Yang Fei Yang 30 3 0 24 Oct 2024
MiCEval: Unveiling Multimodal Chain of Thought's Quality via Image Description and Reasoning Steps Xiongtao Zhou Jie He Lanyu Chen Jingyu Li Haojing Chen Víctor Gutiérrez-Basulto Jeff Z. Pan H. Chen LRM 17 1 0 18 Oct 2024
FLARE: Faithful Logic-Aided Reasoning and Exploration Erik Arakelyan Pasquale Minervini Pat Verga Patrick Lewis Isabelle Augenstein ReLM LRM 49 2 0 14 Oct 2024
Innovative Thinking, Infinite Humor: Humor Research of Large Language Models through Structured Thought Leaps Han Wang Yilin Zhao Dian Li Xiaohan Wang Gang Liu Xuguang Lan H. Wang LRM 30 1 0 14 Oct 2024
Exploring the Role of Reasoning Structures for Constructing Proofs in Multi-Step Natural Language Reasoning with Large Language Models Zióu Zheng Christopher Malon Martin Renqiang Min Xiaodan Zhu LRM 26 0 0 11 Oct 2024
Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks Rushang Karia Daniel Bramblett D. Dobhal Siddharth Srivastava ELM LRM 18 0 0 11 Oct 2024
From Sparse Dependence to Sparse Attention: Unveiling How Chain-of-Thought Enhances Transformer Sample Efficiency Kaiyue Wen Huaqing Zhang Hongzhou Lin Jingzhao Zhang MoE LRM 32 2 0 07 Oct 2024
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning Zayne Sprague Fangcong Yin Juan Diego Rodriguez Dongwei Jiang Manya Wadhwa Prasann Singhal Xinyu Zhao Xi Ye Kyle Mahowald Greg Durrett ReLM LRM 73 79 0 18 Sep 2024
CogLM: Tracking Cognitive Development of Large Language Models Xinglin Wang Peiwen Yuan Shaoxiong Feng Yiwei Li Boyuan Pan Heda Wang Yao Hu Kan Li ELM 29 0 0 17 Aug 2024
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models Seungone Kim Juyoung Suk Ji Yong Cho Shayne Longpre Chaeeun Kim ... Sean Welleck Graham Neubig Moontae Lee Kyungjae Lee Minjoon Seo ELM ALM LM&MA 67 28 0 09 Jun 2024
Chain of Thoughtlessness? An Analysis of CoT in Planning Kaya Stechly Karthik Valmeekam Subbarao Kambhampati LRM LM&Ro 39 35 0 08 May 2024
Evaluating Mathematical Reasoning Beyond Accuracy Shijie Xia Xuefeng Li Yixin Liu Tongshuang Wu Pengfei Liu LRM ReLM 34 21 0 08 Apr 2024
Can We Verify Step by Step for Incorrect Answer Detection? Xin Xu Shizhe Diao Can Yang Yang Wang LRM 94 13 0 16 Feb 2024
AI, Meet Human: Learning Paradigms for Hybrid Decision Making Systems Clara Punzi Roberto Pellungrini Mattia Setzu F. Giannotti D. Pedreschi 11 5 0 09 Feb 2024
Demystifying Chains, Trees, and Graphs of Thoughts Maciej Besta Florim Memedi Zhenyu Zhang Robert Gerstenberger Guangyuan Piao ... Aleš Kubíček H. Niewiadomski Aidan O'Mahony Onur Mutlu Torsten Hoefler AI4CE LRM 30 25 0 25 Jan 2024
LLM-SQL-Solver: Can LLMs Determine SQL Equivalence? Fuheng Zhao Lawrence Lim Ishtiyaque Ahmad D. Agrawal A. El Abbadi Amr El Abbadi 23 9 0 16 Dec 2023
Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs Sen Yang Xin Li Leyang Cui Li Bing Wai Lam LRM NAI 18 15 0 16 Nov 2023
World Models for Math Story Problems Andreas Opedal Niklas Stoehr Abulhair Saparov Mrinmaya Sachan ReLM 27 12 0 07 Jun 2023
On the Paradox of Learning to Reason from Data Honghua Zhang Liunian Harold Li Tao Meng Kai-Wei Chang Guy Van den Broeck NAI ReLM OOD LRM 129 72 0 23 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 277 3,163 0 21 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 313 8,261 0 28 Jan 2022
Flexible Generation of Natural Language Deductions Kaj Bostrom Xinyu Zhao Swarat Chaudhuri Greg Durrett ReLM LRM 242 33 0 18 Apr 2021
Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity Yao Lu Max Bartolo Alastair Moore Sebastian Riedel Pontus Stenetorp AILaw LRM 268 882 0 18 Apr 2021