Polyjuice: Generating Counterfactuals for Explaining, Evaluating, and Improving Models

1 January 2021

Tongshuang Wu

Marco Tulio Ribeiro

Jeffrey Heer

Daniel S. Weld

ArXiv PDF HTML

Papers citing "Polyjuice: Generating Counterfactuals for Explaining, Evaluating, and Improving Models"

50 / 178 papers shown

Title
Reasoning-Grounded Natural Language Explanations for Language Models Vojtech Cahlik Rodrigo Alves Pavel Kordík LRM 43 1 0 14 Mar 2025
Biases in Large Language Model-Elicited Text: A Case Study in Natural Language Inference Grace Proebsting Adam Poliak 50 0 0 06 Mar 2025
Guiding LLMs to Generate High-Fidelity and High-Quality Counterfactual Explanations for Text Classification Van Bach Nguyen C. Seifert Jorg Schlotterer BDL 58 0 0 06 Mar 2025
Interactive Debugging and Steering of Multi-Agent AI Systems Will Epperson Gagan Bansal Victor C. Dibia Adam Fourney Jack Gerrits Erkang Zhu Saleema Amershi 52 5 0 03 Mar 2025
Conceptual Contrastive Edits in Textual and Vision-Language Retrieval Maria Lymperaiou Giorgos Stamou VLM 55 0 0 01 Mar 2025
Is Conversational XAI All You Need? Human-AI Decision Making With a Conversational XAI Assistant Gaole He Nilay Aishwarya U. Gadiraju 38 6 0 29 Jan 2025
LLMs as Workers in Human-Computational Algorithms? Replicating Crowdsourcing Pipelines with LLMs Tongshuang Wu Haiyi Zhu Maya Albayrak Alexis Axon Amanda Bertsch ... Ying-Jui Tseng Patricia Vaidos Zhijin Wu Wei Yu Wu Chenyang Yang 76 30 0 10 Jan 2025
FitCF: A Framework for Automatic Feature Importance-guided Counterfactual Example Generation Qianli Wang Nils Feldhus Simon Ostermann Luis Felipe Villa-Arenas Sebastian Möller Vera Schmitt AAML 34 0 0 01 Jan 2025
The Evolution of LLM Adoption in Industry Data Curation Practices Crystal Qian Michael Xieyang Liu Emily Reif Grady Simon Nada Hussein Nathan Clement James Wexler Carrie J. Cai Michael Terry Minsuk Kahng AILaw ELM 75 4 0 20 Dec 2024
Interpreting Language Reward Models via Contrastive Explanations Junqi Jiang Tom Bewley Saumitra Mishra Freddy Lecue Manuela Veloso 74 0 0 25 Nov 2024
Gumbel Counterfactual Generation From Language Models Shauli Ravfogel Anej Svete Vésteinn Snæbjarnarson Ryan Cotterell LRM CML 31 1 0 11 Nov 2024
A Comparative Analysis of Counterfactual Explanation Methods for Text Classifiers Stephen McAleese Mark Keane 26 0 0 04 Nov 2024
Generating Diverse Negations from Affirmative Sentences Darian Rodriguez Vasquez Afroditi Papadaki 45 0 0 30 Oct 2024
PromptExp: Multi-granularity Prompt Explanation of Large Language Models Ximing Dong Shaowei Wang Dayi Lin Gopi Krishnan Rajbahadur Boquan Zhou Shichao Liu Ahmed E. Hassan AAML LRM 23 1 0 16 Oct 2024
Reasoning Elicitation in Language Models via Counterfactual Feedback Alihan Hüyük Xinnuo Xu Jacqueline Maasch Aditya V. Nori Javier González ReLM LRM 113 1 0 02 Oct 2024
Exploring Empty Spaces: Human-in-the-Loop Data Augmentation Catherine Yeh Donghao Ren Yannick Assogba Dominik Moritz Fred Hohman 36 0 0 01 Oct 2024
Supporting Co-Adaptive Machine Teaching through Human Concept Learning and Cognitive Theories Simret Araya Gebreegziabher Yukun Yang Elena L. Glassman T. Li 21 5 0 25 Sep 2024
CSCE: Boosting LLM Reasoning by Simultaneous Enhancing of Causal Significance and Consistency Kangsheng Wang Xiao Zhang Zizheng Guo Tianyu Hu Huimin Ma LRM 40 7 0 20 Sep 2024
Counterfactuals As a Means for Evaluating Faithfulness of Attribution Methods in Autoregressive Language Models Sepehr Kamahi Yadollah Yaghoobzadeh 32 0 0 21 Aug 2024
Case-based Explainability for Random Forest: Prototypes, Critics, Counter-factuals and Semi-factuals Gregory Yampolsky Dhruv Desai Mingshu Li Stefano Pasquali Dhagash Mehta 29 4 0 13 Aug 2024
SCENE: Evaluating Explainable AI Techniques Using Soft Counterfactuals Haoran Zheng Utku Pamuksuz 19 0 0 08 Aug 2024
Optimal and efficient text counterfactuals using Graph Neural Networks Dimitris Lymperopoulos Maria Lymperaiou Giorgos Filandrianos Giorgos Stamou 22 1 0 04 Aug 2024
On Behalf of the Stakeholders: Trends in NLP Model Interpretability in the Era of LLMs Nitay Calderon Roi Reichart 32 10 0 27 Jul 2024
FairFlow: An Automated Approach to Model-based Counterfactual Data Augmentation For NLP E. Tokpo T. Calders 16 1 0 23 Jul 2024
XAI meets LLMs: A Survey of the Relation between Explainable AI and Large Language Models Erik Cambria Lorenzo Malandri Fabio Mercorio Navid Nobani Andrea Seveso 48 11 0 21 Jul 2024
A Survey on Natural Language Counterfactual Generation Yongjie Wang Xiaoqi Qiu Yu Yue Xu Guo Zhiwei Zeng Yuhong Feng Zhiqi Shen 34 5 0 04 Jul 2024
Is Your Large Language Model Knowledgeable or a Choices-Only Cheater? Nishant Balepur Rachel Rudinger 37 6 0 02 Jul 2024
The Odyssey of Commonsense Causality: From Foundational Benchmarks to Cutting-Edge Reasoning Shaobo Cui Zhijing Jin Bernhard Schölkopf Boi Faltings CML LRM 37 4 0 27 Jun 2024
Automated Adversarial Discovery for Safety Classifiers Yash Kumar Lal Preethi Lahoti Aradhana Sinha Yao Qin Ananth Balashankar 41 0 0 24 Jun 2024
CELL your Model: Contrastive Explanations for Large Language Models Ronny Luss Erik Miehling Amit Dhurandhar 40 0 0 17 Jun 2024
Multi-Aspect Controllable Text Generation with Disentangled Counterfactual Augmentation Yi Liu Xiangyu Liu Xiangrong Zhu Wei Hu 26 2 0 30 May 2024
PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations Jiatong Li Renjun Hu Kunzhe Huang Zhuang Yan Qi Liu Mengxiao Zhu Xing Shi Wei Lin KELM 46 4 0 30 May 2024
Beyond Agreement: Diagnosing the Rationale Alignment of Automated Essay Scoring Methods based on Linguistically-informed Counterfactuals Yupei Wang Renfen Hu Zhe Zhao 32 2 0 29 May 2024
Low-rank finetuning for LLMs: A fairness perspective Saswat Das Marco Romanelli Cuong Tran Zarreen Reza B. Kailkhura Ferdinando Fioretto 35 1 0 28 May 2024
Overlap Number of Balls Model-Agnostic CounterFactuals (ONB-MACF): A Data-Morphology-based Counterfactual Generation Method for Trustworthy Artificial Intelligence José Daniel Pascual-Triana Alberto Fernández Javier Del Ser Francisco Herrera 43 1 0 20 May 2024
Data Science Principles for Interpretable and Explainable AI Kris Sankaran FaML 38 0 0 17 May 2024
Mitigating Text Toxicity with Counterfactual Generation Milan Bhan Jean-Noël Vittaut Nina Achache Victor Legrand N. Chesneau A. Blangero Juliette Murris Marie-Jeanne Lesot MedIm 35 0 0 16 May 2024
Challenges and Opportunities in Text Generation Explainability Kenza Amara R. Sevastjanova Mennatallah El-Assady SILM 32 2 0 14 May 2024
Zero-shot LLM-guided Counterfactual Generation for Text Amrita Bhattacharjee Raha Moraffah Joshua Garland Huan Liu 38 4 0 08 May 2024
CEval: A Benchmark for Evaluating Counterfactual Text Generation Van Bach Nguyen Jorg Schlotterer Christin Seifert 29 5 0 26 Apr 2024
LLMs for Generating and Evaluating Counterfactuals: A Comprehensive Study Van Bach Nguyen Paul Youssef Jorg Schlotterer Christin Seifert 37 14 0 26 Apr 2024
Does It Make Sense to Explain a Black Box With Another Black Box? J. Delaunay Luis Galárraga Christine Largouet AAML 19 1 0 23 Apr 2024
Utilizing Adversarial Examples for Bias Mitigation and Accuracy Enhancement Pushkar Shukla Dhruv Srikanth Lee Cohen Matthew A. Turk AAML 38 0 0 18 Apr 2024
Explainable Generative AI (GenXAI): A Survey, Conceptualization, and Research Agenda Johannes Schneider 81 26 0 15 Apr 2024
A Cause-Effect Look at Alleviating Hallucination of Knowledge-grounded Dialogue Generation Jifan Yu Xiaohan Zhang Yifan Xu Xuanyu Lei Zijun Yao Jing Zhang Lei Hou Juanzi Li HILM 28 1 0 04 Apr 2024
Towards detecting unanticipated bias in Large Language Models Anna Kruspe 30 3 0 03 Apr 2024
A Rationale-centric Counterfactual Data Augmentation Method for Cross-Document Event Coreference Resolution Bowen Ding Qingkai Min Shengkun Ma Yingjie Li Linyi Yang Yue Zhang 38 4 0 02 Apr 2024
RORA: Robust Free-Text Rationale Evaluation Zhengping Jiang Yining Lu Hanjie Chen Daniel Khashabi Benjamin Van Durme Anqi Liu 45 1 0 28 Feb 2024
Clarify: Improving Model Robustness With Natural Language Corrections Yoonho Lee Michelle S. Lam Helena Vasconcelos Michael S. Bernstein Chelsea Finn 23 6 0 06 Feb 2024
LLMCheckup: Conversational Examination of Large Language Models via Interpretability Tools and Self-Explanations Qianli Wang Tatiana Anikina Nils Feldhus Josef van Genabith Leonhard Hennig Sebastian Möller ELM LRM 18 6 0 23 Jan 2024