Towards Interpreting and Mitigating Shortcut Learning Behavior of NLU
Models

Towards Interpreting and Mitigating Shortcut Learning Behavior of NLU Models

11 March 2021

Varun Manjunatha

Ruchi Deshpande

Franck Dernoncourt

Jiuxiang Gu

Papers citing "Towards Interpreting and Mitigating Shortcut Learning Behavior of NLU Models"

19 / 19 papers shown

Title
Short-circuiting Shortcuts: Mechanistic Investigation of Shortcuts in Text Classification Leon Eshuijs Shihan Wang Antske Fokkens 24 0 0 09 May 2025
Automated Trustworthiness Oracle Generation for Machine Learning Text Classifiers Lam Nguyen Tung Steven Cho Xiaoning Du Neelofar Neelofar Valerio Terragni Stefano Ruberto Aldeida Aleti 85 2 0 30 Oct 2024
InjecGuard: Benchmarking and Mitigating Over-defense in Prompt Injection Guardrail Models H. Li Xiaogeng Liu SILM 37 4 0 30 Oct 2024
Co-occurrence is not Factual Association in Language Models Xiao Zhang Miao Li Ji Wu KELM 59 2 0 21 Sep 2024
First Heuristic Then Rational: Dynamic Use of Heuristics in Language Model Reasoning Yoichi Aoki Keito Kudo Tatsuki Kuribayashi Shusaku Sone Masaya Taniguchi Keisuke Sakaguchi Kentaro Inui LRM 19 1 0 23 Jun 2024
Learning Shortcuts: On the Misleading Promise of NLU in Language Models Geetanjali Bihani Julia Taylor Rayz 25 3 0 17 Jan 2024
Modality-Collaborative Transformer with Hybrid Feature Reconstruction for Robust Emotion Recognition Chengxin Chen Pengyuan Zhang 26 5 0 26 Dec 2023
Accurate Use of Label Dependency in Multi-Label Text Classification Through the Lens of Causality Caoyun Fan Wenqing Chen Jidong Tian Yitian Li Hao He Yaohui Jin 34 6 0 11 Oct 2023
Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations Lifan Yuan Yangyi Chen Ganqu Cui Hongcheng Gao Fangyuan Zou Xingyi Cheng Heng Ji Zhiyuan Liu Maosong Sun 32 72 0 07 Jun 2023
Out-of-Distribution Generalization in Text Classification: Past, Present, and Future Linyi Yang Y. Song Xuan Ren Chenyang Lyu Yidong Wang Lingqiao Liu Jindong Wang Jennifer Foster Yue Zhang OOD 20 2 0 23 May 2023
A Comprehensive Survey of Sentence Representations: From the BERT Epoch to the ChatGPT Era and Beyond Abhinav Ramesh Kashyap Thang-Tung Nguyen Viktor Schlegel Stefan Winkler See-Kiong Ng Soujanya Poria AI4TS 3DV SSL 29 6 0 22 May 2023
Debiasing Stance Detection Models with Counterfactual Reasoning and Adversarial Bias Learning Jianhua Yuan Yanyan Zhao Bing Qin 39 4 0 20 Dec 2022
Feature-Level Debiased Natural Language Understanding Yougang Lyu Piji Li Yechang Yang Maarten de Rijke Pengjie Ren Yukun Zhao Dawei Yin Z. Ren 23 10 0 11 Dec 2022
XMD: An End-to-End Framework for Interactive Explanation-Based Debugging of NLP Models Dong-Ho Lee Akshen Kadakia Brihi Joshi Aaron Chan Ziyi Liu ... Takashi Shibuya Ryosuke Mitani Toshiyuki Sekiya Jay Pujara Xiang Ren LRM 35 9 0 30 Oct 2022
Shortcut Learning of Large Language Models in Natural Language Understanding Mengnan Du Fengxiang He Na Zou Dacheng Tao Xia Hu KELM OffRL 19 82 0 25 Aug 2022
Rectify ViT Shortcut Learning by Visual Saliency Chong Ma Lin Zhao Yuzhong Chen David Liu Xi Jiang Tuo Zhang Xintao Hu Dinggang Shen Dajiang Zhu Tianming Liu ViT 20 20 0 17 Jun 2022
Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning Prasetya Ajie Utama N. Moosavi Victor Sanh Iryna Gurevych AAML 56 35 0 09 Sep 2021
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,943 0 20 Apr 2018
Methods for Interpreting and Understanding Deep Neural Networks G. Montavon Wojciech Samek K. Müller FaML 234 2,233 0 24 Jun 2017