Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)

30 November 2017

Justin Gilmer

Papers citing "Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)"

50 / 1,046 papers shown

Title
Error-margin Analysis for Hidden Neuron Activation Labels Abhilekha Dalal R. Rayan Pascal Hitzler FAtt 31 1 0 14 May 2024
Visual Evaluative AI: A Hypothesis-Driven Tool with Concept-Based Explanations and Weight of Evidence Thao Le Tim Miller Ruihan Zhang L. Sonenberg Ronal Singh 31 0 0 13 May 2024
Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL Ning Cheng Zhaohui Yan Ziming Wang Zhijie Li Jiaming Yu Zilong Zheng Kewei Tu Jinan Xu Wenjuan Han 39 5 0 10 May 2024
Interpretability Needs a New Paradigm Andreas Madsen Himabindu Lakkaraju Siva Reddy Sarath Chandar 39 4 0 08 May 2024
Detecting music deepfakes is easy but actually hard Darius Afchar Gabriel Meseguer-Brocal Romain Hennequin 63 6 0 07 May 2024
Interpretable Network Visualizations: A Human-in-the-Loop Approach for Post-hoc Explainability of CNN-based Image Classification Matteo Bianchi Antonio De Santis Andrea Tocchetti Marco Brambilla MILM FAtt 32 1 0 06 May 2024
Explainable Interface for Human-Autonomy Teaming: A Survey Xiangqi Kong Yang Xing Antonios Tsourdos Ziyue Wang Weisi Guo Adolfo Perrusquía Andreas Wikander 37 3 0 04 May 2024
Improving Concept Alignment in Vision-Language Concept Bottleneck Models Nithish Muthuchamy Selvaraj Xiaobao Guo Bingquan Shen A. Kong Alex C. Kot VLM 44 0 0 03 May 2024
A Self-explaining Neural Architecture for Generalizable Concept Learning Sanchit Sinha Guangzhi Xiong Aidong Zhang 27 1 0 01 May 2024
Global Concept Explanations for Graphs by Contrastive Learning Jonas Teufel Pascal Friederich 36 1 0 25 Apr 2024
MiMICRI: Towards Domain-centered Counterfactual Explanations of Cardiovascular Image Classification Models G. Guo Lifu Deng A. Tandon Alex Endert Bum Chul Kwon 39 2 0 24 Apr 2024
CoProNN: Concept-based Prototypical Nearest Neighbors for Explaining Vision Models Teodor Chiaburu Frank Haußer Felix Bießmann 40 4 0 23 Apr 2024
Distilled Datamodel with Reverse Gradient Matching Jingwen Ye Ruonan Yu Songhua Liu Xinchao Wang DD 41 3 0 22 Apr 2024
On the Value of Labeled Data and Symbolic Methods for Hidden Neuron Activation Analysis Abhilekha Dalal R. Rayan Adrita Barua Eugene Y. Vasserman Md Kamruzzaman Sarker Pascal Hitzler 27 4 0 21 Apr 2024
How should AI decisions be explained? Requirements for Explanations from the Perspective of European Law Benjamin Frész Elena Dubovitskaya Danilo Brajovic Marco F. Huber Christian Horz 49 7 0 19 Apr 2024
Latent Concept-based Explanation of NLP Models Xuemin Yu Fahim Dalvi Nadir Durrani Marzia Nouri Hassan Sajjad LRM FAtt 24 1 0 18 Apr 2024
Measuring Feature Dependency of Neural Networks by Collapsing Feature Dimensions in the Data Manifold Yinzhu Jin Matthew B. Dwyer P. T. Fletcher MedIm 21 0 0 18 Apr 2024
Uncovering Safety Risks of Large Language Models through Concept Activation Vector Zhihao Xu Ruixuan Huang Changyu Chen Shuai Wang Xiting Wang LLMSV 32 10 0 18 Apr 2024
Toward Understanding the Disagreement Problem in Neural Network Feature Attribution Niklas Koenen Marvin N. Wright FAtt 39 5 0 17 Apr 2024
Generating Counterfactual Trajectories with Latent Diffusion Models for Concept Discovery Payal Varshney Adriano Lucieri Christoph Balada Andreas Dengel Sheraz Ahmed MedIm DiffM 53 4 0 16 Apr 2024
Interaction as Explanation: A User Interaction-based Method for Explaining Image Classification Models Hyeonggeun Yun 58 0 0 15 Apr 2024
Contrastive Pretraining for Visual Concept Explanations of Socioeconomic Outcomes Ivica Obadic Alex Levering Lars Pennig Dario Augusto Borges Oliveira Diego Marcos Xiaoxiang Zhu 43 0 0 15 Apr 2024
Reactive Model Correction: Mitigating Harm to Task-Relevant Features via Conditional Bias Suppression Dilyara Bareeva Maximilian Dreyer Frederik Pahde Wojciech Samek Sebastian Lapuschkin KELM 67 1 0 15 Apr 2024
Explainable Generative AI (GenXAI): A Survey, Conceptualization, and Research Agenda Johannes Schneider 83 26 0 15 Apr 2024
Exploring Explainability in Video Action Recognition Avinab Saha Shashank Gupta S. Ankireddy Karl Chahine Joydeep Ghosh 30 0 0 13 Apr 2024
Incremental Residual Concept Bottleneck Models Chenming Shang Shiji Zhou Hengyuan Zhang Xinzhe Ni Yujiu Yang Yuwang Wang 36 14 0 13 Apr 2024
MCPNet: An Interpretable Classifier via Multi-Level Concept Prototypes Bor-Shiun Wang Chien-Yi Wang Wei-Chen Chiu 30 3 0 13 Apr 2024
Knowledge graphs for empirical concept retrieval Lenka Tětková Teresa Scheidt Maria Mandrup Fogh Ellen Marie Gaunby Jorgensen F. Nielsen Lars Kai Hansen 21 1 0 10 Apr 2024
Concept-Attention Whitening for Interpretable Skin Lesion Diagnosis Junlin Hou Jilan Xu Hao Chen MedIm 36 7 0 09 Apr 2024
Sparse Concept Bottleneck Models: Gumbel Tricks in Contrastive Learning Andrei Semenov Vladimir Ivanov Aleksandr Beznosikov Alexander Gasnikov 37 6 0 04 Apr 2024
How explainable AI affects human performance: A systematic review of the behavioural consequences of saliency maps Romy Müller HAI 42 6 0 03 Apr 2024
ASAP: Interpretable Analysis and Summarization of AI-generated Image Patterns at Scale Jinbin Huang C. L. P. Chen Aditi Mishra Bum Chul Kwon Zhicheng Liu Chris Bryan 47 4 0 03 Apr 2024
The SaTML '24 CNN Interpretability Competition: New Innovations for Concept-Level Interpretability Stephen Casper Jieun Yun Joonhyuk Baek Yeseong Jung Minhwan Kim ... A. Nicolson Arush Tagade Jessica Rumbelow Hieu Minh Nguyen Dylan Hadfield-Menell 19 2 0 03 Apr 2024
Towards detecting unanticipated bias in Large Language Models Anna Kruspe 33 3 0 03 Apr 2024
Visual Concept Connectome (VCC): Open World Concept Discovery and their Interlayer Connections in Deep Models M. Kowal Richard P. Wildes Konstantinos G. Derpanis GNN 30 8 0 02 Apr 2024
Concept-based Analysis of Neural Networks via Vision-Language Models Ravi Mangal Nina Narodytska Divya Gopinath Boyue Caroline Hu Anirban Roy Susmit Jha Corina S. Pasareanu CoGe 26 3 0 28 Mar 2024
Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models Samuel Marks Can Rager Eric J. Michaud Yonatan Belinkov David Bau Aaron Mueller 46 112 0 28 Mar 2024
Measuring Political Bias in Large Language Models: What Is Said and How It Is Said Yejin Bang Delong Chen Nayeon Lee Pascale Fung 32 25 0 27 Mar 2024
Neural Clustering based Visual Representation Learning Guikun Chen Xia Li Yi Yang Wenguan Wang SSL 37 8 0 26 Mar 2024
The Anatomy of Adversarial Attacks: Concept-based XAI Dissection Georgii Mikriukov Gesina Schwalbe Franz Motzkus Korinna Bade AAML 24 1 0 25 Mar 2024
A survey on Concept-based Approaches For Model Improvement Avani Gupta P. J. Narayanan LRM 29 5 0 21 Mar 2024
On the Concept Trustworthiness in Concept Bottleneck Models Qihan Huang Jie Song Jingwen Hu Haofei Zhang Yong Wang Mingli Song 37 9 0 21 Mar 2024
Learning Decomposable and Debiased Representations via Attribute-Centric Information Bottlenecks Jinyung Hong Eunyeong Jeon Changhoon Kim Keun Hee Park Utkarsh Nath Yezhou Yang P. Turaga Theodore P. Pavlic CML 33 0 0 21 Mar 2024
SelfIE: Self-Interpretation of Large Language Model Embeddings Haozhe Chen Carl Vondrick Chengzhi Mao 19 18 0 16 Mar 2024
Gradient based Feature Attribution in Explainable AI: A Technical Review Yongjie Wang Tong Zhang Xu Guo Zhiqi Shen XAI 19 18 0 15 Mar 2024
Interpretable Machine Learning for Survival Analysis Sophie Hanna Langbein Mateusz Krzyzinski Mikolaj Spytek Hubert Baniecki P. Biecek Marvin N. Wright 43 2 0 15 Mar 2024
HOLMES: HOLonym-MEronym based Semantic inspection for Convolutional Image Classifiers Francesco Dibitonto Fabio Garcea Andre' Panisson Alan Perotti Lia Morra AAML 29 0 0 13 Mar 2024
Improving deep learning with prior knowledge and cognitive models: A survey on enhancing explainability, adversarial robustness and zero-shot learning F. Mumuni A. Mumuni AAML 37 5 0 11 Mar 2024
A Concept-based Interpretable Model for the Diagnosis of Choroid Neoplasias using Multimodal Data Yifan Wu Yang Liu Yue Yang Michael S. Yao Wenli Yang ... Yueming Liu James C. Gee Xuan Yang Wenbin Wei Shi Gu 27 3 0 08 Mar 2024
On the Origins of Linear Representations in Large Language Models Yibo Jiang Goutham Rajendran Pradeep Ravikumar Bryon Aragam Victor Veitch 67 24 0 06 Mar 2024