v1v2v3v4v5 (latest)

Locating and Editing Factual Associations in GPT

Neural Information Processing Systems (NeurIPS), 2022

10 February 2022

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Locating and Editing Factual Associations in GPT"

50 / 1,361 papers shown

Sari Sandbox: A Virtual Retail Store Environment for Embodied AI Agents

Janika Deborah Gajo

Gerarld Paul Merales

Jerome Escarcha

Brenden Ashley Molina

143

01 Aug 2025

Unveiling the Influence of Amplifying Language-Specific Neurons

Inaya Rahmanisa

Lyzander Marciano Andrylie

Mahardika Krisna Ihsani

Alfan Farizki Wicaksono

Haryo Akbarianto Wibowo

Alham Fikri Aji

148

30 Jul 2025

RainbowPrompt: Diversity-Enhanced Prompt-Evolving for Continual Learning

174

30 Jul 2025

When Truthful Representations Flip Under Deceptive Instructions?

369

29 Jul 2025

Dissecting Persona-Driven Reasoning in Language Models via Activation Patching

Ansh Poonia

Maeghal Jain

215

28 Jul 2025

Modular Delta Merging with Orthogonal Constraints: A Scalable Framework for Continual and Reversible Model Composition

204

28 Jul 2025

A Survey on Generative Model Unlearning: Fundamentals, Taxonomy, Evaluation, and Future Direction

262

26 Jul 2025

Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes

204

25 Jul 2025

Modality Agnostic Efficient Long Range Encoder

T. Parag

Ahmed Elgammal

158

25 Jul 2025

CircuitProbe: Dissecting Spatiotemporal Visual Semantics with Circuit Tracing

218

25 Jul 2025

Decoupling Knowledge and Reasoning in LLMs: An Exploration Using Cognitive Dual-System Theory

Mutian Yang

Jiandong Gao

Ji Wu

186

24 Jul 2025

NeuralDB: Scaling Knowledge Editing in LLMs to 100,000 Facts with Neural KV Database

170

24 Jul 2025

How does Chain of Thought Think? Mechanistic Interpretability of Chain-of-Thought Reasoning with Sparse Autoencoding

128

24 Jul 2025

Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning

Senthooran Rajamanoharan

Neel Nanda

OODD LLMSV

385

22 Jul 2025

Beyond Isolated Capabilities: Bridging Long CoT Reasoning and Long-Context Understanding

Yifei Wang

LRM

132

20 Jul 2025

Linear Relational Decoding of Morphology in Language ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2025

Eric Xia

Jugal Kalita

192

19 Jul 2025

Retention analysis of edited knowledge after fine-tuning

Fufang Wen

Shichang Zhang

KELM

194

14 Jul 2025

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

180

14 Jul 2025

Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning

158

14 Jul 2025

An Exploration of Knowledge Editing for Arabic

186

13 Jul 2025

DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models

216

12 Jul 2025

Knowledge Fusion via Bidirectional Information Aggregation

134

11 Jul 2025

Steering Information Utility in Key-Value Memory for Language Model Post-Training

369

07 Jul 2025

Dynamic Injection of Entity Knowledge into Dense Retrievers

171

05 Jul 2025

MemOS: A Memory OS for AI System

...

513

04 Jul 2025

Controlling Thinking Speed in Reasoning Models

142

04 Jul 2025

Latent Chain-of-Thought? Decoding the Depth-Recurrent Transformer

136

02 Jul 2025

Layer Importance for Mathematical Reasoning is Forged in Pre-Training and Invariant after Post-Training

189

27 Jun 2025

Little By Little: Continual Learning via Self-Activated Sparse Mixture-of-Rank Adaptive Learning

230

26 Jun 2025

Multiple Streams of Knowledge Retrieval: Enriching and Recalling in Transformers

192

25 Jun 2025

Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior Toward Beneficence or Harm

281

25 Jun 2025

Bridging Compositional and Distributional Semantics: A Survey on Latent Semantic Geometry via AutoEncoder

400

25 Jun 2025

Understanding Reasoning in Thinking Language Models via Steering Vectors

195

22 Jun 2025

Sparse Feature Coactivation Reveals Causal Semantic Modules in Large Language Models

189

22 Jun 2025

From Concepts to Components: Concept-Agnostic Attention Module Discovery in Transformers

Jingtong Su

Julia Kempe

Karen Ullrich

274

20 Jun 2025

Large Language Models as Psychological Simulators: A Methodological Guide

Zhicheng Lin

LLMAG

246

20 Jun 2025

Latent Concept Disentanglement in Transformer-based Language Models

340

20 Jun 2025

Reviving Your MNEME: Predicting The Side Effects of LLM Unlearning and Fine-Tuning via Sparse Model Diffing

155

19 Jun 2025

Under the Shadow of Babel: How Language Shapes Reasoning in LLMs

158

19 Jun 2025

Can structural correspondences ground real world representational content in Large Language Models?

Iwan Williams

154

19 Jun 2025

Mr. Snuffleupagus at SemEval-2025 Task 4: Unlearning Factual Knowledge from LLMs Using Adaptive RMU

Arjun Dosajh

Mihika Sanghi

263

19 Jun 2025

Visual symbolic mechanisms: Emergent symbol processing in vision language models

Rim Assouel

Declan Campbell

Taylor Webb

202

18 Jun 2025

The Compositional Architecture of Regret in Large Language Models

226

18 Jun 2025

Representation Consistency for Accurate and Coherent LLM Answer Aggregation

196

18 Jun 2025

Learning-Time Encoding Shapes Unlearning in LLMs

Ruihan Wu

Konstantin Garov

Kamalika Chaudhuri

221

18 Jun 2025

Probabilistic Aggregation and Targeted Embedding Optimization for Collective Moral Reasoning in Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

265

17 Jun 2025

Mitigating Safety Fallback in Editing-based Backdoor Injection on LLMs

260

16 Jun 2025

DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models

321

16 Jun 2025

Position: Pause Recycling LoRAs and Prioritize Mechanisms to Uncover Limits and Effectiveness

246

16 Jun 2025

TrojanTO: Action-Level Backdoor Attacks against Trajectory Optimization Models

234

15 Jun 2025