Post Hoc Explanations of Language Models Can Improve Language Models

Post Hoc Explanations of Language Models Can Improve Language Models

19 May 2023

Satyapriya Krishna

Jiaqi Ma

Asma Ghandeharioun

Himabindu Lakkaraju

Papers citing "Post Hoc Explanations of Language Models Can Improve Language Models"

16 / 16 papers shown

Title
Gender Bias in Explainability: Investigating Performance Disparity in Post-hoc Methods Mahdi Dhaini Ege Erdogan Nils Feldhus Gjergji Kasneci 49 0 0 02 May 2025
Policy-to-Language: Train LLMs to Explain Decisions with Flow-Matching Generated Rewards Xinyi Yang Liang Zeng Heng Dong Chao Yu X. Wu H. Yang Yu Wang Milind Tambe Tonghan Wang 76 2 0 18 Feb 2025
FitCF: A Framework for Automatic Feature Importance-guided Counterfactual Example Generation Qianli Wang Nils Feldhus Simon Ostermann Luis Felipe Villa-Arenas Sebastian Möller Vera Schmitt AAML 34 0 0 01 Jan 2025
Interplay between Federated Learning and Explainable Artificial Intelligence: a Scoping Review Luis M. Lopez-Ramos Florian Leiser Aditya Rastogi Steven Hicks Inga Strümke V. Madai Tobias Budig Ali Sunyaev A. Hilbert 30 1 0 07 Nov 2024
Simple Is Effective: The Roles of Graphs and Large Language Models in Knowledge-Graph-Based Retrieval-Augmented Generation Mufei Li Siqi Miao Pan Li RALM 38 7 0 28 Oct 2024
On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models Sree Harsha Tanneru Dan Ley Chirag Agarwal Himabindu Lakkaraju LRM 31 4 0 15 Jun 2024
Progressive Inference: Explaining Decoder-Only Sequence Classification Models Using Intermediate Predictions Sanjay Kariyappa Freddy Lecue Saumitra Mishra Christopher Pond Daniele Magazzeni Manuela Veloso 43 1 0 03 Jun 2024
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models Byung-Kwan Lee Chae Won Kim Beomchan Park Yonghyun Ro MLLM LRM 38 18 0 24 May 2024
Harnessing Large Language Models as Post-hoc Correctors Zhiqiang Zhong Kuangyu Zhou Davide Mottin 34 4 0 20 Feb 2024
Explain-then-Translate: An Analysis on Improving Program Translation with Self-generated Explanations Zilu Tang Mayank Agarwal Alex Shypula Bailin Wang Derry Wijaya Jie Chen Yoon Kim LRM 37 15 0 13 Nov 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 298 3,007 0 22 Mar 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 313 11,953 0 04 Mar 2022
The Disagreement Problem in Explainable Machine Learning: A Practitioner's Perspective Satyapriya Krishna Tessa Han Alex Gu Steven Wu S. Jabbari Himabindu Lakkaraju 177 186 0 03 Feb 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 367 8,495 0 28 Jan 2022
How can I choose an explainer? An Application-grounded Evaluation of Post-hoc Explanations Sérgio Jesus Catarina Belém Vladimir Balayan João Bento Pedro Saleiro P. Bizarro João Gama 136 120 0 21 Jan 2021
Towards A Rigorous Science of Interpretable Machine Learning Finale Doshi-Velez Been Kim XAI FaML 254 3,684 0 28 Feb 2017