Neuron to Graph: Interpreting Language Model Neurons at Scale

Neuron to Graph: Interpreting Language Model Neurons at Scale

31 May 2023

Ioannis Konstas

Papers citing "Neuron to Graph: Interpreting Language Model Neurons at Scale"

9 / 9 papers shown

Title
Discovering Influential Neuron Path in Vision Transformers Yifan Wang Yifei Liu Yingdong Shi Chong Li Anqi Pang Sibei Yang Jingyi Yu Kan Ren ViT 71 0 0 12 Mar 2025
Data Attribution for Text-to-Image Models by Unlearning Synthesized Images Sheng-Yu Wang Aaron Hertzmann Alexei A. Efros Jun-Yan Zhu Richard Zhang TDI 133 2 0 21 Feb 2025
Quantifying Feature Space Universality Across Large Language Models via Sparse Autoencoders Michael Lan Philip Torr Austin Meek Ashkan Khakzar David M. Krueger Fazl Barez 48 11 0 09 Oct 2024
DeepDecipher: Accessing and Investigating Neuron Activation in Large Language Models Albert Garde Esben Kran Fazl Barez 24 2 0 03 Oct 2023
Fairness in AI and Its Long-Term Implications on Society Ondrej Bohdal Timothy M. Hospedales Philip Torr Fazl Barez 20 4 0 16 Apr 2023
In-context Learning and Induction Heads Catherine Olsson Nelson Elhage Neel Nanda Nicholas Joseph Nova Dassarma ... Tom B. Brown Jack Clark Jared Kaplan Sam McCandlish C. Olah 252 476 0 24 Sep 2022
Toy Models of Superposition Nelson Elhage Tristan Hume Catherine Olsson Nicholas Schiefer T. Henighan ... Sam McCandlish Jared Kaplan Dario Amodei Martin Wattenberg C. Olah AAML MILM 133 326 0 21 Sep 2022
Unsolved Problems in ML Safety Dan Hendrycks Nicholas Carlini John Schulman Jacob Steinhardt 186 278 0 28 Sep 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 282 2,007 0 31 Dec 2020