v1v2 (latest)

What if This Modified That? Syntactic Interventions via Counterfactual Embeddings

28 May 2021

Papers citing "What if This Modified That? Syntactic Interventions via Counterfactual Embeddings"

34 / 34 papers shown

Title
Mechanisms vs. Outcomes: Probing for Syntax Fails to Explain Performance on Targeted Syntactic Evaluations Ananth Agarwal Jasper Jian Christopher D. Manning Shikhar Murty 12 0 0 20 Jun 2025
Linguistic Interpretability of Transformer-based Language Models: a systematic review Miguel López-Otal Jorge Gracia Jordi Bernad Carlos Bobed Lucía Pitarch-Ballesteros Emma Anglés-Herrero VLM 108 1 0 09 Apr 2025
Analyzing the Inner Workings of Transformers in Compositional Generalization Ryoma Kumon Hitomi Yanaka 101 0 0 24 Feb 2025
Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations Nick Jiang Anish Kachinthaya Suzie Petryk Yossi Gandelsman VLM 121 28 0 03 Oct 2024
How Reliable are Causal Probing Interventions? Marc E. Canby Adam Davies Chirag Rastogi Julia Hockenmaier 44 0 0 28 Aug 2024
The Quest for the Right Mediator: A History, Survey, and Theoretical Grounding of Causal Interpretability Aaron Mueller Jannik Brinkmann Millicent Li Samuel Marks Koyena Pal ... Arnab Sen Sharma Jiuding Sun Eric Todd David Bau Yonatan Belinkov CML 130 25 0 02 Aug 2024
A Rationale-centric Counterfactual Data Augmentation Method for Cross-Document Event Coreference Resolution Bowen Ding Qingkai Min Shengkun Ma Yingjie Li Linyi Yang Yue Zhang 69 6 0 02 Apr 2024
More than Correlation: Do Large Language Models Learn Causal Representations of Space? Yida Chen Yixian Gan Sijia Li Li Yao Xiaohan Zhao LRM 67 6 0 26 Dec 2023
Uncovering Intermediate Variables in Transformers using Circuit Probing Michael A. Lepori Thomas Serre Ellie Pavlick 161 7 0 07 Nov 2023
Evaluating Neural Language Models as Cognitive Models of Language Acquisition Héctor Javier Vázquez Martínez Annika Lea Heuser Charles D. Yang Jordan Kodner 102 10 0 31 Oct 2023
Verb Conjugation in Transformers Is Determined by Linear Encodings of Subject Number Sophie Hao Tal Linzen 23 5 0 23 Oct 2023
Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs Angelica Chen Ravid Schwartz-Ziv Kyunghyun Cho Matthew L. Leavitt Naomi Saphra 145 74 0 13 Sep 2023
Emergent Linear Representations in World Models of Self-Supervised Sequence Models Neel Nanda Andrew Lee Martin Wattenberg FAtt MILM 120 186 0 02 Sep 2023
Why Linguistics Will Thrive in the 21st Century: A Reply to Piantadosi (2023) Jordan Kodner Sarah Payne Jeffrey Heinz LRM 73 14 0 06 Aug 2023
Operationalising Representation in Natural Language Processing J. Harding 121 13 0 14 Jun 2023
Beyond Surface Statistics: Scene Representations in a Latent Diffusion Model Yida Chen Fernanda Viégas Martin Wattenberg DiffM 68 24 0 09 Jun 2023
Semantic Composition in Visually Grounded Language Models Rohan Pandey CoGe 86 1 0 15 May 2023
Eliciting Latent Predictions from Transformers with the Tuned Lens Nora Belrose Zach Furman Logan Smith Danny Halawi Igor V. Ostrovsky Lev McKinney Stella Biderman Jacob Steinhardt 111 231 0 14 Mar 2023
On Modifying a Neural Network's Perception Manuel de Sousa Ribeiro João Leite AAML 67 1 0 05 Mar 2023
Competence-Based Analysis of Language Models Adam Davies Jize Jiang Chengxiang Zhai ELM 58 5 0 01 Mar 2023
A Review of the Role of Causality in Developing Trustworthy AI Systems Niloy Ganguly Dren Fazlija Maryam Badar M. Fisichella Sandipan Sikdar ... Koustav Rudra Manolis Koubarakis Gourab K. Patro W. Z. E. Amri Wolfgang Nejdl CML 89 26 0 14 Feb 2023
Break It Down: Evidence for Structural Compositionality in Neural Networks Michael A. Lepori Thomas Serre Ellie Pavlick 97 37 0 26 Jan 2023
Syntax-guided Neural Module Distillation to Probe Compositionality in Sentence Embeddings Rohan Pandey 142 1 0 21 Jan 2023
Probing for Incremental Parse States in Autoregressive Language Models Tiwalayo Eisape Vineet Gangireddy R. Levy Yoon Kim 58 13 0 17 Nov 2022
Towards Faithful Model Explanation in NLP: A Survey Qing Lyu Marianna Apidianaki Chris Callison-Burch XAI 237 120 0 22 Sep 2022
Unit Testing for Concepts in Neural Networks Charles Lovering Ellie Pavlick 71 28 0 28 Jul 2022
Prototype Based Classification from Hierarchy to Fairness Mycal Tucker J. Shah FaML 49 7 0 27 May 2022
Naturalistic Causal Probing for Morpho-Syntax Afra Amini Tiago Pimentel Clara Meister Ryan Cotterell MILM 142 19 0 14 May 2022
When Does Syntax Mediate Neural Language Model Performance? Evidence from Dropout Probes Mycal Tucker Tiwalayo Eisape Peng Qian R. Levy J. Shah MILM 66 12 0 20 Apr 2022
Probing for the Usage of Grammatical Number Karim Lasri Tiago Pimentel Alessandro Lenci Thierry Poibeau Ryan Cotterell 80 58 0 19 Apr 2022
Automatically Generating Counterfactuals for Relation Classification Mi Zhang T. Qian Tingyu Zhang CML 49 0 0 22 Feb 2022
Probe-Based Interventions for Modifying Agent Behavior Mycal Tucker William Kuhl Khizer Shahid Seth Karten Katia Sycara J. Shah AAML 20 0 0 26 Jan 2022
Counterfactual Interventions Reveal the Causal Effect of Relative Clause Representations on Agreement Prediction Shauli Ravfogel Grusha Prasad Tal Linzen Yoav Goldberg 108 59 0 14 May 2021
Probing Classifiers: Promises, Shortcomings, and Advances Yonatan Belinkov 314 457 0 24 Feb 2021