Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models

4 June 2024

Papers citing "Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models"

21 / 21 papers shown

Title
Understanding the Logical Capabilities of Large Language Models via Out-of-Context Representation Learning Jonathan Shaki Emanuele La Malfa Michael Wooldridge Sarit Kraus LRM ReLM 59 0 0 13 Mar 2025
A Representationalist, Functionalist and Naturalistic Conception of Intelligence as a Foundation for AGI Rolf Pfister 45 0 0 10 Mar 2025
Code LLMs: A Taxonomy-based Survey Nishat Raihan Christian D. Newman Marcos Zampieri 89 0 0 11 Dec 2024
Quantifying artificial intelligence through algebraic generalization Takuya Ito Murray Campbell L. Horesh Tim Klinger Parikshit Ram ELM 41 0 0 08 Nov 2024
Failure Modes of LLMs for Causal Reasoning on Narratives Khurram Yamin Shantanu Gupta Gaurav R. Ghosal Zachary Chase Lipton Bryan Wilder LRM 27 0 0 31 Oct 2024
On Memorization of Large Language Models in Logical Reasoning Chulin Xie Yangsibo Huang Chiyuan Zhang Da Yu Xinyun Chen Bill Yuchen Lin Bo Li Badih Ghazi Ravi Kumar LRM 33 20 0 30 Oct 2024
Bongard in Wonderland: Visual Puzzles that Still Make AI Go Mad? Antonia Wüst Tim Nelson Tobiasch Lukas Helff Inga Ibs Wolfgang Stammer D. Dhami Constantin Rothkopf Kristian Kersting CoGe ReLM VLM LRM 39 1 0 25 Oct 2024
Are You Human? An Adversarial Benchmark to Expose LLMs Gilad Gressel Rahul Pankajakshan Yisroel Mirsky DeLMO 28 0 0 12 Oct 2024
The Role of Deductive and Inductive Reasoning in Large Language Models Chengkun Cai Xu Zhao Haoliang Liu Zhongyu Jiang Tianfang Zhang Zongkai Wu Jenq-Neng Hwang Serge Belongie Lei Li LRM 31 2 0 03 Oct 2024
Composing Global Optimizers to Reasoning Tasks via Algebraic Objects in Neural Nets Yuandong Tian 36 0 0 02 Oct 2024
A Looming Replication Crisis in Evaluating Behavior in Language Models? Evidence and Solutions Laurène Vaugrante Mathias Niepert Thilo Hagendorff LRM 27 1 0 30 Sep 2024
How to Measure the Intelligence of Large Language Models? Nils Korber Silvan Wehrli Christopher Irrgang ELM ALM 22 0 0 30 Jul 2024
Internal Consistency and Self-Feedback in Large Language Models: A Survey Xun Liang Shichao Song Zifan Zheng Hanyu Wang Qingchen Yu ... Rong-Hua Li Peng Cheng Zhonghao Wang Feiyu Xiong Zhiyu Li HILM LRM 51 23 0 19 Jul 2024
AI Safety in Generative AI Large Language Models: A Survey Jaymari Chua Yun Yvonna Li Shiyi Yang Chen Wang Lina Yao LM&MA 26 12 0 06 Jul 2024
Mathador-LM: A Dynamic Benchmark for Mathematical Reasoning on Large Language Models Eldar Kurtic Amir Moeini Dan Alistarh LRM 16 2 0 18 Jun 2024
Task Contamination: Language Models May Not Be Few-Shot Anymore Changmao Li Jeffrey Flanigan 71 87 0 26 Dec 2023
Ask Me Anything: A simple strategy for prompting language models Simran Arora A. Narayan Mayee F. Chen Laurel J. Orr Neel Guha Kush S. Bhatia Ines Chami Frederic Sala Christopher Ré ReLM LRM 190 160 0 05 Oct 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 2,712 0 24 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 297 3,163 0 21 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 220 3,054 0 23 Jan 2020