Train Sparse Autoencoders Efficiently by Utilizing Features Correlation

28 May 2025

Papers citing "Train Sparse Autoencoders Efficiently by Utilizing Features Correlation"

2 / 2 papers shown

Title
SAEBench: A Comprehensive Benchmark for Sparse Autoencoders in Language Model Interpretability Adam Karvonen Can Rager Johnny Lin Curt Tigges Joseph Isaac Bloom ... Matthew Wearden Arthur Conmy Arthur Conmy Samuel Marks Neel Nanda MU 164 23 0 12 Mar 2025
Sparse Autoencoders Can Interpret Randomly Initialized Transformers Thomas Heap Tim Lawson Lucy Farnik Laurence Aitchison 81 17 0 29 Jan 2025