A Geometric Notion of Causal Probing

A Geometric Notion of Causal Probing

27 July 2023

Clément Guerner

Papers citing "A Geometric Notion of Causal Probing"

10 / 10 papers shown

Title
Re-Imagining Multimodal Instruction Tuning: A Representation View Yiyang Liu James Liang Ruixiang Tang Yugyung Lee Majid Rabbani ... Raghuveer M. Rao Lifu Huang Dongfang Liu Qifan Wang Cheng Han 24 0 0 02 Mar 2025
Gumbel Counterfactual Generation From Language Models Shauli Ravfogel Anej Svete Vésteinn Snæbjarnarson Ryan Cotterell LRM CML 21 0 0 11 Nov 2024
Improving Instruction-Following in Language Models through Activation Steering Alessandro Stolfo Vidhisha Balachandran Safoora Yousefi Eric Horvitz Besmira Nushi LLMSV 37 13 0 15 Oct 2024
Recurrent Neural Networks Learn to Store and Generate Sequences using Non-Linear Representations Róbert Csordás Christopher Potts Christopher D. Manning Atticus Geiger GAN 21 10 0 20 Aug 2024
Refusal in Language Models Is Mediated by a Single Direction Andy Arditi Oscar Obeso Aaquib Syed Daniel Paleka Nina Panickssery Wes Gurnee Neel Nanda 34 130 0 17 Jun 2024
ReFT: Representation Finetuning for Language Models Zhengxuan Wu Aryaman Arora Zheng Wang Atticus Geiger Daniel Jurafsky Christopher D. Manning Christopher Potts OffRL 30 55 0 04 Apr 2024
CausalGym: Benchmarking causal interpretability methods on linguistic tasks Aryaman Arora Daniel Jurafsky Christopher Potts 32 18 0 19 Feb 2024
Representation Surgery: Theory and Practice of Affine Steering Shashwat Singh Shauli Ravfogel Jonathan Herzig Roee Aharoni Ryan Cotterell Ponnurangam Kumaraguru LLMSV 14 12 0 15 Feb 2024
Naturalistic Causal Probing for Morpho-Syntax Afra Amini Tiago Pimentel Clara Meister Ryan Cotterell MILM 93 13 0 14 May 2022
Linear Adversarial Concept Erasure Shauli Ravfogel Michael Twiton Yoav Goldberg Ryan Cotterell KELM 62 56 0 28 Jan 2022