Mechanistic Unlearning: Robust Knowledge Unlearning and Editing via Mechanistic Localization

16 October 2024

Papers citing "Mechanistic Unlearning: Robust Knowledge Unlearning and Editing via Mechanistic Localization"

6 / 6 papers shown

Title
Not All Data Are Unlearned Equally Aravind Krishnan Siva Reddy Marius Mosbach MU 39 0 0 07 Apr 2025
CaKE: Circuit-aware Editing Enables Generalizable Knowledge Learners Yunzhi Yao Jizhan Fang Jia-Chen Gu N. Zhang Shumin Deng H. Chen Nanyun Peng KELM 54 1 0 20 Mar 2025
A Comprehensive Survey of Machine Unlearning Techniques for Large Language Models Jiahui Geng Qing Li Herbert Woisetschlaeger Zongxiong Chen Y. Wang Preslav Nakov Hans-Arno Jacobsen Fakhri Karray MU 41 1 0 22 Feb 2025
SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders Bartosz Cywiñski Kamil Deja DiffM 55 6 0 29 Jan 2025
Do Unlearning Methods Remove Information from Language Model Weights? Aghyad Deeb Fabien Roger AAML MU 40 11 0 11 Oct 2024
A Practical Review of Mechanistic Interpretability for Transformer-Based Language Models Daking Rai Yilun Zhou Shi Feng Abulhair Saparov Ziyu Yao 49 18 0 02 Jul 2024