v1v2 (latest)

Does Localization Inform Editing? Surprising Differences in Causality-Based Localization vs. Knowledge Editing in Language Models

Neural Information Processing Systems (NeurIPS), 2023

10 January 2023

ArXiv (abs)PDF HTML Github (61★)

Papers citing "Does Localization Inform Editing? Surprising Differences in Causality-Based Localization vs. Knowledge Editing in Language Models"

50 / 85 papers shown

Cross-Modal Unlearning via Influential Neuron Path Editing in Multimodal Large Language Models

258

10 Nov 2025

Understanding Robustness of Model Editing in Code LLMs: An Empirical Study

156

05 Nov 2025

Balancing Knowledge Updates: Toward Unified Modular Editing in LLMs

144

31 Oct 2025

From Memorization to Reasoning in the Spectrum of Loss Curvature

205

28 Oct 2025

Edit Less, Achieve More: Dynamic Sparse Neuron Masking for Lifelong Knowledge Editing in LLMs

346

25 Oct 2025

An Empirical Study of Sample Selection Strategies for Large Language Model Repair

Xuran Li

Jingyi Wang

KELM

132

23 Oct 2025

Explainability of Large Language Models: Opportunities and Challenges toward Generating Trustworthy Explanations

...

165

20 Oct 2025

Bilinear relational structure fixes reversal curse and enables consistent model editing

365

26 Sep 2025

Do All Autoregressive Transformers Remember Facts the Same Way? A Cross-Architecture Analysis of Recall Mechanisms

150

10 Sep 2025

Avoiding Knowledge Edit Skipping in Multi-hop Question Answering with Guided Decomposition

112

09 Sep 2025

Measuring Uncertainty in Transformer Circuits with Effective Information Consistency

Anatoly A. Krasnovsky

08 Sep 2025

Flexible Feature Distillation for Large Language Models

Khouloud Saadi

Di Wang

261

14 Jul 2025

Scalpel vs. Hammer: GRPO Amplifies Existing Capabilities, SFT Replaces Them

Neel Rajani

Aryo Pradipta Gema

Seraphina Goldfarb-Tarrant

Ivan Titov

238

13 Jul 2025

Steering Information Utility in Key-Value Memory for Language Model Post-Training

364

07 Jul 2025

Multiple Streams of Knowledge Retrieval: Enriching and Recalling in Transformers

178

25 Jun 2025

From Concepts to Components: Concept-Agnostic Attention Module Discovery in Transformers

Jingtong Su

Julia Kempe

Karen Ullrich

268

20 Jun 2025

Query-Focused Retrieval Heads Improve Long-Context Reasoning and Re-ranking

293

11 Jun 2025

Private Memorization Editing: Turning Memorization into a Defense to Strengthen Data Privacy in Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Elena Sofia Ruzzetti

Giancarlo A. Xompero

Davide Venditti

Fabio Massimo Zanzotto

KELM PILM

263

09 Jun 2025

Bridging External and Parametric Knowledge: Mitigating Hallucination of LLMs with Shared-Private Semantic Synergy in Dual-Stream Knowledge

190

06 Jun 2025

COMPKE: Complex Question Answering under Knowledge EditingAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

288

01 Jun 2025

Drop Dropout on Single-Epoch Language Model PretrainingAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Houjun Liu

John Bauer

Christopher D. Manning

LRM

196

30 May 2025

Paths Not Taken: Understanding and Mending the Multilingual Factual Recall Pipeline

344

26 May 2025

Does Localization Inform Unlearning? A Rigorous Examination of Local Parameter Attribution for Knowledge Unlearning in Language Models

309

22 May 2025

Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-DistillationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

912

09 May 2025

Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation

523

01 May 2025

SUV: Scalable Large Language Model Copyright Compliance with Regularized Selective Unlearning

543

29 Mar 2025

CaKE: Circuit-aware Editing Enables Generalizable Knowledge Learners

354

20 Mar 2025

Implicit Reasoning in Transformers is Reasoning through ShortcutsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

436

10 Mar 2025

SAKE: Steering Activations for Knowledge EditingAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

322

03 Mar 2025

A Causal Lens for Evaluating Faithfulness Metrics

Kerem Zaman

Shashank Srivastava

490

26 Feb 2025

Do Multilingual LLMs Think In English?

Lisa Schut

Y. Gal

Sebastian Farquhar

292

24 Feb 2025

Robust Concept Erasure Using Task Vectors

449

21 Feb 2025

Revealing and Mitigating Over-Attention in Knowledge EditingInternational Conference on Learning Representations (ICLR), 2025

565

21 Feb 2025

MLaKE: Multilingual Knowledge Editing Benchmark for Large Language ModelsInternational Conference on Computational Linguistics (COLING), 2024

264

20 Feb 2025

The Knowledge Microscope: Features as Better Analytical Lenses than NeuronsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

274

18 Feb 2025

Elucidating Mechanisms of Demographic Bias in LLMs for Healthcare

374

18 Feb 2025

Towards Understanding Fine-Tuning Mechanisms of LLMs via Circuit Analysis

526

17 Feb 2025

Making Sense Of Distributed Representations With Activation Spectroscopy

Kyle Reing

Greg Ver Steeg

Aram Galstyan

224

28 Jan 2025

LLMs as Repositories of Factual Knowledge: Limitations and Solutions

273

22 Jan 2025

Localize-and-Stitch: Efficient Model Merging via Sparse Task Arithmetic

335

08 Jan 2025

Towards Unifying Interpretability and Control: Evaluation via Intervention

387

07 Nov 2024

A Implies B: Circuit Analysis in LLMs for Propositional Logical Reasoning

434

06 Nov 2024

All or None: Identifiable Linear Properties of Next-token Predictors in Language ModelingInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

372

30 Oct 2024

Learning and Unlearning of Fabricated Knowledge in Language Models

241

29 Oct 2024

WAGLE: Strategic Weight Attribution for Effective and Modular Unlearning in Large Language ModelsNeural Information Processing Systems (NeurIPS), 2024

Nathalie Baracaldo

389

23 Oct 2024

Fact Recall, Heuristics or Pure Guesswork? Precise Interpretations of Language Models for Fact CompletionAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

613

18 Oct 2024

MINER: Mining the Underlying Pattern of Modality-Specific Neurons in Multimodal Large Language Models

Kun Wang

Xuming Hu

244

07 Oct 2024

AlphaEdit: Null-Space Constrained Knowledge Editing for Language ModelsInternational Conference on Learning Representations (ICLR), 2024

Cunchun Li

Houcheng Jiang

Kun Wang

Yunshan Ma

Shi Jie

Xiangnan He

Tat-Seng Chua

Tat-seng Chua

KELM

514

135

03 Oct 2024

Position: LLM Unlearning Benchmarks are Weak Measures of Progress

Virginia Smith

356

03 Oct 2024

Relation Also Knows: Rethinking the Recall and Editing of Factual Associations in Auto-Regressive Transformer Language ModelsAAAI Conference on Artificial Intelligence (AAAI), 2024

Weiping Wang

424

27 Aug 2024