Towards a Mechanistic Interpretation of Multi-Step Reasoning Capabilities of Language Models

23 October 2023

Papers citing "Towards a Mechanistic Interpretation of Multi-Step Reasoning Capabilities of Language Models"

38 / 38 papers shown

Title
Honey, I Shrunk the Language Model: Impact of Knowledge Distillation Methods on Performance and Explainability Daniel Hendriks Philipp Spitzer Niklas Kühl G. Satzger 22 0 0 22 Apr 2025
Beyond Chains of Thought: Benchmarking Latent-Space Reasoning Abilities in Large Language Models Thilo Hagendorff Sarah Fabi ReLM ELM LRM 35 0 0 14 Apr 2025
Rethinking Reflection in Pre-Training Essential AI Darsh J Shah Peter Rushton Somanshu Singla Mohit Parmar ... Philip Monk Platon Mazarakis Ritvik Kapila Saurabh Srivastava Tim Romanski ReLM LRM 35 3 0 05 Apr 2025
The Reasoning-Memorization Interplay in Language Models Is Mediated by a Single Direction Yihuai Hong Dian Zhou Meng Cao Lei Yu Zhijing Jin LRM 41 0 0 29 Mar 2025
Reverse-Engineering the Retrieval Process in GenIR Models Anja Reusch Yonatan Belinkov RALM 58 0 0 25 Mar 2025
CaKE: Circuit-aware Editing Enables Generalizable Knowledge Learners Yunzhi Yao Jizhan Fang Jia-Chen Gu N. Zhang Shumin Deng H. Chen Nanyun Peng KELM 54 1 0 20 Mar 2025
Your Language Model May Think Too Rigidly: Achieving Reasoning Consistency with Symmetry-Enhanced Training Yihang Yao Zhepeng Cen Miao Li William Jongwon Han Yuyou Zhang Emerson Liu Zuxin Liu Chuang Gan Ding Zhao ReLM LRM 67 0 0 25 Feb 2025
CoT-ICL Lab: A Petri Dish for Studying Chain-of-Thought Learning from In-Context Demonstrations Vignesh Kothapalli Hamed Firooz Maziar Sanjabi 52 0 0 21 Feb 2025
Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning L. Zhang Lijie Hu Di Wang LRM 81 0 0 17 Feb 2025
Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts? Sohee Yang Nora Kassner E. Gribovskaya Sebastian Riedel Mor Geva KELM LRM ReLM 70 4 0 25 Nov 2024
Information Anxiety in Large Language Models Prasoon Bajpai Sarah Masud Tanmoy Chakraborty 22 0 0 16 Nov 2024
Abrupt Learning in Transformers: A Case Study on Matrix Completion Pulkit Gopalani Ekdeep Singh Lubana Wei Hu 27 3 0 29 Oct 2024
Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics Yaniv Nikankin Anja Reusch Aaron Mueller Yonatan Belinkov AIFin LRM 25 21 0 28 Oct 2024
Identifying Sub-networks in Neural Networks via Functionally Similar Representations Tian Gao Amit Dhurandhar K. Ramamurthy Dennis L. Wei 40 0 0 21 Oct 2024
MIRAGE: Evaluating and Explaining Inductive Reasoning Process in Language Models Jiachun Li Pengfei Cao Zhuoran Jin Yubo Chen Kang-Jun Liu Jun Zhao LRM ELM 27 4 0 12 Oct 2024
Locate-then-edit for Multi-hop Factual Recall under Knowledge Editing Zhuoran Zhang Y. Li Zijian Kan Keyuan Cheng Lijie Hu Di Wang KELM 11 4 0 08 Oct 2024
Unveiling Factual Recall Behaviors of Large Language Models through Knowledge Neurons Yifei Wang Yuheng Chen Wanting Wen Yu Sheng Linjing Li D. Zeng KELM 18 5 0 06 Aug 2024
Knowledge Mechanisms in Large Language Models: A Survey and Perspective Meng Wang Yunzhi Yao Ziwen Xu Shuofei Qiao Shumin Deng ... Yong-jia Jiang Pengjun Xie Fei Huang Huajun Chen Ningyu Zhang 39 1 0 22 Jul 2024
Evaluating the Ability of Large Language Models to Reason about Cardinal Directions Anthony G Cohn Robert E Blackwell 27 1 0 24 Jun 2024
Hopping Too Late: Exploring the Limitations of Large Language Models on Multi-Hop Queries Eden Biran Daniela Gottesman Sohee Yang Mor Geva Amir Globerson LRM 21 21 0 18 Jun 2024
Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey Philipp Mondorf Barbara Plank ELM LRM LM&MA 24 34 0 02 Apr 2024
Large Language Models and Causal Inference in Collaboration: A Survey Xiaoyu Liu Paiheng Xu Junda Wu Jiaxin Yuan Yifan Yang ... Haoliang Wang Tong Yu Julian McAuley Wei Ai Furong Huang ELM LRM 70 35 0 14 Mar 2024
How do Large Language Models Handle Multilingualism? Yiran Zhao Wenxuan Zhang Guizhen Chen Kenji Kawaguchi Lidong Bing LRM 25 52 0 29 Feb 2024
Focus on Your Question! Interpreting and Mitigating Toxic CoT Problems in Commonsense Reasoning Jiachun Li Pengfei Cao Chenhao Wang Zhuoran Jin Yubo Chen Daojian Zeng Kang Liu Jun Zhao LRM 30 8 0 28 Feb 2024
Case-Based or Rule-Based: How Do Transformers Do the Math? Yi Hu Xiaojuan Tang Haotong Yang Muhan Zhang LRM 14 18 0 27 Feb 2024
Do Large Language Models Latently Perform Multi-Hop Reasoning? Sohee Yang E. Gribovskaya Nora Kassner Mor Geva Sebastian Riedel ReLM LRM 27 75 0 26 Feb 2024
Understanding and Patching Compositional Reasoning in LLMs Zhaoyi Li Gangwei Jiang Hong Xie Linqi Song Defu Lian Ying Wei LRM 38 20 0 22 Feb 2024
A Mechanistic Analysis of a Transformer Trained on a Symbolic Multi-Step Reasoning Task Jannik Brinkmann Abhay Sheshadri Victor Levoso Paul Swoboda Christian Bartelt LRM 19 21 0 19 Feb 2024
AbsInstruct: Eliciting Abstraction Ability from LLMs through Explanation Tuning with Plausibility Estimation Zhaowei Wang Wei Fan Qing Zong Hongming Zhang Sehyun Choi Tianqing Fang Xin Liu Yangqiu Song Ginny Y. Wong Simon See 32 13 0 16 Feb 2024
Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation Xinyi Wang Alfonso Amayuelas Kexun Zhang Liangming Pan Wenhu Chen W. Wang LRM 17 11 0 05 Feb 2024
Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure Haotong Yang Fanxu Meng Zhouchen Lin Muhan Zhang LRM 10 2 0 09 Oct 2023
Navigate through Enigmatic Labyrinth A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future Zheng Chu Jingchang Chen Qianglong Chen Weijiang Yu Tao He Haotian Wang Weihua Peng Ming-Yu Liu Bing Qin Ting Liu LRM AI4CE 8 148 0 27 Sep 2023
Dissecting Recall of Factual Associations in Auto-Regressive Language Models Mor Geva Jasmijn Bastings Katja Filippova Amir Globerson KELM 186 260 0 28 Apr 2023
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 2,712 0 24 May 2022
Do Transformer Models Show Similar Attention Patterns to Task-Specific Human Gaze? Stephanie Brandl Oliver Eberle Jonas Pilot Anders Søgaard 58 33 0 25 Apr 2022
Rethinking Attention-Model Explainability through Faithfulness Violation Test Y. Liu Haoliang Li Yangyang Guo Chen Kong Jing Li Shiqi Wang FAtt 108 41 0 28 Jan 2022
Probing Classifiers: Promises, Shortcomings, and Advances Yonatan Belinkov 219 291 0 24 Feb 2021
On-the-Fly Attention Modulation for Neural Generation Yue Dong Chandra Bhagavatula Ximing Lu Jena D. Hwang Antoine Bosselut Jackie C.K. Cheung Yejin Choi 35 11 0 02 Jan 2021