Exploratory Not Explanatory: Counterfactual Analysis of Saliency Maps for Deep Reinforcement Learning

9 December 2019

Papers citing "Exploratory Not Explanatory: Counterfactual Analysis of Saliency Maps for Deep Reinforcement Learning"

50 / 58 papers shown

Title
Pay Attention to What and Where? Interpretable Feature Extractor in Vision-based Deep Reinforcement Learning Tien Pham Angelo Cangelosi 36 1 0 14 Apr 2025
Studying the Interplay Between the Actor and Critic Representations in Reinforcement Learning Samuel Garcin Trevor A. McInroe Pablo Samuel Castro Prakash Panangaden Christopher G. Lucas David Abel Stefano V. Albrecht 58 0 0 08 Mar 2025
Policy-to-Language: Train LLMs to Explain Decisions with Flow-Matching Generated Rewards Xinyi Yang Liang Zeng Heng Dong Chao Yu X. Wu H. Yang Yu Wang Milind Tambe Tonghan Wang 83 2 0 18 Feb 2025
Behaviour Distillation Andrei Lupu Chris Xiaoxuan Lu Jarek Liesen R. T. Lange Jakob Foerster DD 54 4 0 21 Jun 2024
Revealing the Learning Process in Reinforcement Learning Agents Through Attention-Oriented Metrics Charlotte Beylier Simon M. Hofmann Nico Scherf 26 0 0 20 Jun 2024
Exposing Image Classifier Shortcuts with Counterfactual Frequency (CoF) Tables James Hinns David Martens 54 2 0 24 May 2024
Explainable AI (XAI) in Image Segmentation in Medicine, Industry, and Beyond: A Survey Rokas Gipiškis Chun-Wei Tsai Olga Kurasova 68 5 0 02 May 2024
Unraveling the Dilemma of AI Errors: Exploring the Effectiveness of Human and Machine Explanations for Large Language Models Marvin Pafla Kate Larson Mark Hancock 48 6 0 11 Apr 2024
Safety Implications of Explainable Artificial Intelligence in End-to-End Autonomous Driving Shahin Atakishiyev Mohammad Salameh Randy Goebel 72 6 0 18 Mar 2024
ViSaRL: Visual Reinforcement Learning Guided by Human Saliency Anthony Liang Jesse Thomason Erdem Biyik 40 7 0 16 Mar 2024
ACTER: Diverse and Actionable Counterfactual Sequences for Explaining and Diagnosing RL Policies Jasmina Gajcin Ivana Dusparic CML OffRL 32 2 0 09 Feb 2024
Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback Yifu Yuan Jianye Hao Yi Ma Zibin Dong Hebin Liang Jinyi Liu Zhixin Feng Kai-Wen Zhao Yan Zheng OffRL ALM 24 14 0 04 Feb 2024
Colour versus Shape Goal Misgeneralization in Reinforcement Learning: A Case Study Karolis Ramanauskas Özgür Simsek 29 0 0 05 Dec 2023
On the Relationship Between Interpretability and Explainability in Machine Learning Benjamin Leblanc Pascal Germain FaML 36 0 0 20 Nov 2023
Towards interpretable-by-design deep learning algorithms Plamen Angelov D. Kangin Ziyang Zhang 29 6 0 19 Nov 2023
Explainable History Distillation by Marked Temporal Point Process Sishun Liu Ke Deng Yan Wang Xiuzhen Zhang 35 0 0 13 Nov 2023
Accountability in Offline Reinforcement Learning: Explaining Decisions with a Corpus of Examples Hao Sun Alihan Huyuk Daniel Jarrett M. Schaar OffRL 41 7 0 11 Oct 2023
Learning Generalizable Agents via Saliency-Guided Features Decorrelation Sili Huang Yanchao Sun Jifeng Hu Siyuan Guo Hechang Chen Yi-Ju Chang Lichao Sun Bo Yang 28 5 0 08 Oct 2023
Explainable Multi-Agent Reinforcement Learning for Temporal Queries Kayla Boggess Sarit Kraus Lu Feng LRM 42 12 0 17 May 2023
Explainable Reinforcement Learning via a Causal World Model Zhongwei Yu Jingqing Ruan Dengpeng Xing CML 35 15 0 04 May 2023
GANterfactual-RL: Understanding Reinforcement Learning Agents' Strategies through Visual Counterfactual Explanations Tobias Huber Maximilian Demmler Silvan Mertes Matthew Lyle Olson Elisabeth André 20 15 0 24 Feb 2023
Explainable Deep Reinforcement Learning: State of the Art and Challenges G. Vouros XAI 52 77 0 24 Jan 2023
Decisions that Explain Themselves: A User-Centric Deep Reinforcement Learning Explanation System Xiaoran Wu Zihan Yan Chongjie Zhang Tongshuang Wu 24 1 0 01 Dec 2022
Explainability Via Causal Self-Talk Nicholas A. Roy Junkyung Kim Neil C. Rabinowitz CML 29 7 0 17 Nov 2022
Interpretable Deep Reinforcement Learning for Green Security Games with Real-Time Information V. Sharma John P. Dickerson Pratap Tokekar AI4CE 19 0 0 09 Nov 2022
Measuring Interventional Robustness in Reinforcement Learning Katherine Avery Jack Kenney Pracheta Amaranath Erica Cai David D. Jensen 21 0 0 19 Sep 2022
Look where you look! Saliency-guided Q-networks for generalization in visual Reinforcement Learning David Bertoin Adil Zouitine Mehdi Zouitine Emmanuel Rachelson 40 30 0 16 Sep 2022
Additive MIL: Intrinsically Interpretable Multiple Instance Learning for Pathology Syed Ashar Javed Dinkar Juyal Harshith Padigela A. Taylor-Weiner Limin Yu Aaditya (Adi) Prakash 21 63 0 03 Jun 2022
Human-AI Shared Control via Policy Dissection Quanyi Li Zhenghao Peng Haibin Wu Lan Feng Bolei Zhou 28 13 0 31 May 2022
Power and accountability in reinforcement learning applications to environmental policy Melissa S. Chapman Caleb Scoville Marcus Lapeyrolerie C. Boettiger OffRL 21 2 0 22 May 2022
Investigating the Properties of Neural Network Representations in Reinforcement Learning Han Wang Erfan Miahi Martha White Marlos C. Machado Zaheer Abbas Raksha Kumaraswamy Vincent Liu Adam White 25 26 0 30 Mar 2022
Reclaiming saliency: rhythmic precision-modulated action and perception A. Meera Filip Novicky Thomas Parr Karl J. Friston Pablo Lanillos Noor Sajid 37 9 0 23 Mar 2022
Reinforcement Learning in Practice: Opportunities and Challenges Yuxi Li OffRL 38 9 0 23 Feb 2022
System-Agnostic Meta-Learning for MDP-based Dynamic Scheduling via Descriptive Policy Hyunsung Lee 19 1 0 18 Jan 2022
Detecting danger in gridworlds using Gromov's Link Condition Thomas F Burns R. Tang AI4CE 31 2 0 17 Jan 2022
A Survey on Interpretable Reinforcement Learning Claire Glanois Paul Weng Matthieu Zimmer Dong Li Tianpei Yang Jianye Hao Wulong Liu OffRL 23 95 0 24 Dec 2021
Temporal-Spatial Causal Interpretations for Vision-Based Reinforcement Learning Wenjie Shi Gao Huang Shiji Song Cheng Wu 34 9 0 06 Dec 2021
Explainable Deep Reinforcement Learning for Portfolio Management: An Empirical Approach Mao Guan Xiao-Yang Liu AIFin AI4TS 27 20 0 07 Nov 2021
An Approach to Partial Observability in Games: Learning to Both Act and Observe Elizabeth Gilmour Noah Plotkin L. Smith 19 1 0 11 Aug 2021
Counterfactual Explanations in Sequential Decision Making Under Uncertainty Stratis Tsirtsis A. De Manuel Gomez Rodriguez 19 45 0 06 Jul 2021
Habitat 2.0: Training Home Assistants to Rearrange their Habitat Andrew Szot Alexander Clegg Eric Undersander Erik Wijmans Yili Zhao ... Z. Kira V. Koltun Jitendra Malik Manolis Savva Dhruv Batra LM&Ro 39 502 0 28 Jun 2021
Brittle AI, Causal Confusion, and Bad Mental Models: Challenges and Successes in the XAI Program Jeff Druce J. Niehaus Vanessa Moody David D. Jensen Michael L. Littman 20 15 0 10 Jun 2021
Abstraction, Validation, and Generalization for Explainable Artificial Intelligence Scott Cheng-Hsin Yang Tomas Folke Patrick Shafto 21 5 0 16 May 2021
Interpretable Machine Learning: Fundamental Principles and 10 Grand Challenges Cynthia Rudin Chaofan Chen Zhi Chen Haiyang Huang Lesia Semenova Chudi Zhong FaML AI4CE LRM 59 655 0 20 Mar 2021
Interpretable Deep Learning: Interpretation, Interpretability, Trustworthiness, and Beyond Xuhong Li Haoyi Xiong Xingjian Li Xuanyu Wu Xiao Zhang Ji Liu Jiang Bian Dejing Dou AAML FaML XAI HAI 23 318 0 19 Mar 2021
Counterfactual State Explanations for Reinforcement Learning Agents via Generative Deep Learning Matthew Lyle Olson Roli Khanna Lawrence Neal Fuxin Li Weng-Keen Wong CML 37 69 0 29 Jan 2021
Benchmarking Perturbation-based Saliency Maps for Explaining Atari Agents Tobias Huber Benedikt Limmer Elisabeth André FAtt 20 14 0 18 Jan 2021
RoCUS: Robot Controller Understanding via Sampling Yilun Zhou Serena Booth Nadia Figueroa J. Shah 27 14 0 25 Dec 2020
Machine versus Human Attention in Deep Reinforcement Learning Tasks Sihang Guo Ruohan Zhang Bo Liu Yifeng Zhu M. Hayhoe D. Ballard Peter Stone OffRL 24 26 0 29 Oct 2020
Towards falsifiable interpretability research Matthew L. Leavitt Ari S. Morcos AAML AI4CE 21 67 0 22 Oct 2020