Ensembling Sparse Autoencoders

21 May 2025

Papers citing "Ensembling Sparse Autoencoders"

5 / 5 papers shown

Title
Learning Multi-Level Features with Matryoshka Sparse Autoencoders Bart Bussmann Noa Nabeshima Adam Karvonen Neel Nanda 126 13 0 21 Mar 2025
SAEBench: A Comprehensive Benchmark for Sparse Autoencoders in Language Model Interpretability Adam Karvonen Can Rager Johnny Lin Curt Tigges Joseph Isaac Bloom ... Matthew Wearden Arthur Conmy Arthur Conmy Samuel Marks Neel Nanda MU 162 23 0 12 Mar 2025
Archetypal SAE: Adaptive and Stable Dictionary Learning for Concept Extraction in Large Vision Models Thomas Fel Ekdeep Singh Lubana Jacob S. Prince M. Kowal Victor Boutin Isabel Papadimitriou Binxu Wang Martin Wattenberg Demba Ba Talia Konkle 76 8 0 18 Feb 2025
Sparse Autoencoders Do Not Find Canonical Units of Analysis Patrick Leask Bart Bussmann Michael T. Pearce Joseph Isaac Bloom Curt Tigges Noura Al Moubayed Lee D. Sharkey Neel Nanda 111 15 0 07 Feb 2025
Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models Samuel Marks Can Rager Eric J. Michaud Yonatan Belinkov David Bau Aaron Mueller 169 159 0 28 Mar 2024