What does the Knowledge Neuron Thesis Have to do with Knowledge?

3 May 2024

Papers citing "What does the Knowledge Neuron Thesis Have to do with Knowledge?"

26 / 26 papers shown

Title
Following the Whispers of Values: Unraveling Neural Mechanisms Behind Value-Oriented Behaviors in LLMs Ling Hu Yuemei Xu Xiaoyang Gu Letao Han 25 0 0 07 Apr 2025
The Knowledge Microscope: Features as Better Analytical Lenses than Neurons Yuheng Chen Pengfei Cao Kang Liu Jun Zhao 43 0 0 18 Feb 2025
Brain-Inspired Exploration of Functional Networks and Key Neurons in Large Language Models Yiheng Liu Xiaohui Gao Haiyang Sun Bao Ge Tianming Liu Junwei Han X. Hu 36 0 0 13 Feb 2025
NLSR: Neuron-Level Safety Realignment of Large Language Models Against Harmful Fine-Tuning Xin Yi Shunfan Zheng Linlin Wang Gerard de Melo Xiaoling Wang Liang He 64 4 0 17 Dec 2024
The Geometry of Numerical Reasoning: Language Models Compare Numeric Properties in Linear Subspaces Ahmed Oumar El-Shangiti Tatsuya Hiraoka Hilal AlQuabeh Benjamin Heinzerling Kentaro Inui 34 1 0 17 Oct 2024
Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations Litu Rout Yujia Chen Nataniel Ruiz C. Caramanis Sanjay Shakkottai Wen-Sheng Chu DiffM 59 23 0 14 Oct 2024
Mitigating the Language Mismatch and Repetition Issues in LLM-based Machine Translation via Model Editing Weichuan Wang Zhaoyi Li Defu Lian Chen Ma Linqi Song Ying Wei 38 5 0 09 Oct 2024
Style-Specific Neurons for Steering LLMs in Text Style Transfer Wen Lai Viktor Hangya Alexander M. Fraser 23 5 0 01 Oct 2024
Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models Aviv Bick Kevin Y. Li Eric P. Xing J. Zico Kolter Albert Gu Mamba 43 24 0 19 Aug 2024
Generalisation First, Memorisation Second? Memorisation Localisation for Natural Language Classification Tasks Verna Dankers Ivan Titov 29 5 0 09 Aug 2024
Can Editing LLMs Inject Harm? Canyu Chen Baixiang Huang Zekun Li Zhaorun Chen Shiyang Lai ... Xifeng Yan William Wang Philip H. S. Torr Dawn Song Kai Shu KELM 38 11 0 29 Jul 2024
Functional Faithfulness in the Wild: Circuit Discovery with Differentiable Computation Graph Pruning Lei Yu Jingcheng Niu Zining Zhu Gerald Penn 25 3 0 04 Jul 2024
How Well Can Knowledge Edit Methods Edit Perplexing Knowledge? Huaizhi Ge Frank Rudzicz Zining Zhu KELM 40 4 0 25 Jun 2024
MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model Jiahao Huo Yibo Yan Boren Hu Yutao Yue Xuming Hu LRM MLLM 32 7 0 17 Jun 2024
Knowledge Circuits in Pretrained Transformers Yunzhi Yao Ningyu Zhang Zekun Xi Meng Wang Ziwen Xu Shumin Deng Huajun Chen KELM 59 19 0 28 May 2024
WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models Peng Wang Zexi Li Ningyu Zhang Ziwen Xu Yunzhi Yao Yong-jia Jiang Pengjun Xie Fei Huang Huajun Chen KELM CLL 45 20 0 23 May 2024
LLM-Generated Black-box Explanations Can Be Adversarially Helpful R. Ajwani Shashidhar Reddy Javaji Frank Rudzicz Zining Zhu AAML 32 6 0 10 May 2024
Natural Language Processing RELIES on Linguistics Juri Opitz Shira Wein Nathan Schneider AI4CE 42 7 0 09 May 2024
Monotonic Representation of Numeric Properties in Language Models Benjamin Heinzerling Kentaro Inui KELM MILM 38 9 0 15 Mar 2024
Cracking Factual Knowledge: A Comprehensive Analysis of Degenerate Knowledge Neurons in Large Language Models Yuheng Chen Pengfei Cao Yubo Chen Yining Wang Shengping Liu Kang Liu Jun Zhao KELM 24 1 0 21 Feb 2024
Investigating Multi-Hop Factual Shortcuts in Knowledge Editing of Large Language Models Tianjie Ju Yijin Chen Xinwei Yuan Zhuosheng Zhang Wei Du Yubin Zheng Gongshen Liu KELM 20 5 0 19 Feb 2024
A Comprehensive Study of Knowledge Editing for Large Language Models Ningyu Zhang Yunzhi Yao Bo Tian Peng Wang Shumin Deng ... Lei Liang Zhiqiang Zhang Xiao-Jun Zhu Jun Zhou Huajun Chen KELM 26 76 0 02 Jan 2024
Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small Kevin Wang Alexandre Variengien Arthur Conmy Buck Shlegeris Jacob Steinhardt 210 486 0 01 Nov 2022
Fast Model Editing at Scale E. Mitchell Charles Lin Antoine Bosselut Chelsea Finn Christopher D. Manning KELM 219 341 0 21 Oct 2021
Measuring and Improving Consistency in Pretrained Language Models Yanai Elazar Nora Kassner Shauli Ravfogel Abhilasha Ravichander Eduard H. Hovy Hinrich Schütze Yoav Goldberg HILM 258 343 0 01 Feb 2021
Language Models as Knowledge Bases? Fabio Petroni Tim Rocktaschel Patrick Lewis A. Bakhtin Yuxiang Wu Alexander H. Miller Sebastian Riedel KELM AI4MH 396 2,576 0 03 Sep 2019