Applying sparse autoencoders to unlearn knowledge in language models

25 October 2024

Papers citing "Applying sparse autoencoders to unlearn knowledge in language models"

2 / 2 papers shown

Title
SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders Bartosz Cywiñski Kamil Deja DiffM 61 6 0 29 Jan 2025
Tracking the Feature Dynamics in LLM Training: A Mechanistic Study Yang Xu Y. Wang Hao Wang 95 1 0 23 Dec 2024