v1v2v3 (latest)

Contextualizing Hate Speech Classifiers with Post-hoc Explanation

Annual Meeting of the Association for Computational Linguistics (ACL), 2020

5 May 2020

Brendan Kennedy

Xisen Jin

Aida Mostafazadeh Davani

Morteza Dehghani

Xiang Ren

ArXiv (abs)PDF HTML

Papers citing "Contextualizing Hate Speech Classifiers with Post-hoc Explanation"

50 / 83 papers shown

Language, Culture, and Ideology: Personalizing Offensiveness Detection in Political Tweets with Reasoning LLMs

Dzmitry Pihulski

Jan Kocoń

150

27 Sep 2025

Bridging Fairness and Explainability: Can Input-Based Explanations Promote Fairness in Hate Speech Detection?

271

26 Sep 2025

MFTCXplain: A Multilingual Benchmark Dataset for Evaluating the Moral Reasoning of LLMs through Multi-hop Hate Speech Explanation

Flor Miriam Plaza del Arco

Yalda Daryanai

Farzan Karimi-Malekabadi

Francielle Vargas

LRM

316

23 Jun 2025

Assessing Intersectional Bias in Representations of Pre-Trained Image Recognition Models

Valerie Krug

Sebastian Stober

313

04 Jun 2025

Don't Erase, Inform! Detecting and Contextualizing Harmful Language in Cultural Heritage CollectionsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Orfeas Menis Mastromichalakis

190

30 May 2025

On Fairness of Task Arithmetic: The Role of Task Vectors

Hiroki Naganuma

Kotaro Yoshida

Laura Gomezjurado Gonzalez

252

30 May 2025

Data-Efficient Hate Speech Detection via Cross-Lingual Nearest Neighbor Retrieval with Limited Labeled Data

Faeze Ghorbanpour

Daryna Dementieva

Kangyang Luo

392

20 May 2025

Explanations as Bias Detectors: A Critical Study of Local Post-hoc XAI Methods for Fairness Exploration

523

01 May 2025

U-GIFT: Uncertainty-Guided Firewall for Toxic Speech in Few-Shot Scenario

291

03 Jan 2025

Interacting Large Language Model Agents. Interpretable Models and Social Learning

Adit Jain

Vikram Krishnamurthy

LLMAG

566

02 Nov 2024

A Target-Aware Analysis of Data Augmentation for Hate Speech Detection

Camilla Casula

Sara Tonelli

292

10 Oct 2024

Are Large Language Models Really Bias-Free? Jailbreak Prompts for Assessing Adversarial Robustness to Bias Elicitation

455

11 Jul 2024

Hate Speech Detection with Generalizable Target-aware Fairness

470

28 May 2024

Exploring Boundaries and Intensities in Offensive and Hate Speech: Unveiling the Complex Spectrum of Social Media Discourse

Abinew Ali Ayele

Esubalew alemneh Jalew

Adem Chanie Ali

Seid Muhie Yimam

Christian Biemann

194

18 Apr 2024

ToXCL: A Unified Framework for Toxic Speech Detection and Explanation

845

25 Mar 2024

Recourse for reclamation: Chatting with generative language models

229

21 Mar 2024

Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models

Ming Shan Hee

251

30 Jan 2024

Cross-lingual Offensive Language Detection: A Systematic Review of Datasets, Transfer Approaches and Challenges

Aiqi Jiang

A. Zubiaga

AAML

385

17 Jan 2024

Latent Feature-based Data Splits to Improve Generalisation Evaluation: A Hate Speech Detection Case Study

Maike Zufle

Verna Dankers

Ivan Titov

283

16 Nov 2023

Generative AI for Hate Speech Detection: Evaluation and Findings

218

16 Nov 2023

Overview of the HASOC Subtrack at FIRE 2023: Identification of Tokens Contributing to Explicit Hate in English by Span Detection

262

16 Nov 2023

REFER: An End-to-end Rationale Extraction Framework for Explanation RegularizationConference on Computational Natural Language Learning (CoNLL), 2023

Mohammad Reza Ghasemi Madani

Pasquale Minervini

275

22 Oct 2023

Towards a Unified Framework for Adaptable Problematic Content Detection via Continual Learning

278

29 Sep 2023

Hateful Messages: A Conversational Data Set of Hate Speech produced by Adolescents on Discord

Jan Fillies

Silvio Peikert

Adrian Paschke

151

04 Sep 2023

Unmasking Nationality Bias: A Study of Human Perception of Nationalities in AI-Generated ArticlesAAAI/ACM Conference on AI, Ethics, and Society (AIES), 2023

Pranav Narayanan Venkit

188

08 Aug 2023

XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2023

Paul Röttger

467

298

02 Aug 2023

Sociodemographic Bias in Language Models: A Survey and Forward Path

Vipul Gupta

Pranav Narayanan Venkit

Shomir Wilson

R. Passonneau

534

13 Jun 2023

Evaluating the Effectiveness of Natural Language Inference for Hate Speech Detection in Languages with Limited Labeled Data

242

06 Jun 2023

Exploiting Explainability to Design Adversarial Attacks and Evaluate Attack Resilience in Hate-Speech Detection ModelsInternational Conference on Web and Social Media (ICWSM), 2023

197

29 May 2023

Should We Attend More or Less? Modulating Attention for Fairness

341

22 May 2023

Analyzing Norm Violations in Live-Stream ChatConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

310

18 May 2023

HateMM: A Multi-Modal Dataset for Hate Video ClassificationInternational Conference on Web and Social Media (ICWSM), 2023

240

06 May 2023

SemEval-2023 Task 10: Explainable Detection of Online SexismInternational Workshop on Semantic Evaluation (SemEval), 2023

Hannah Rose Kirk

Wenjie Yin

Bertie Vidgen

Paul Röttger

347

148

07 Mar 2023

Explaining text classifiers through progressive neighborhood approximation with realistic samples

233

11 Feb 2023

Nationality Bias in Text GenerationConference of the European Chapter of the Association for Computational Linguistics (EACL), 2023

Pranav Narayanan Venkit

Sanjana Gautam

Ruchi Panchanadikar

Ting-Hao 'Kenneth' Huang

Shomir Wilson

460

05 Feb 2023

Language Model Detoxification in Dialogue with Contextualized Stance ControlConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Jingu Qian

Xifeng Yan

232

25 Jan 2023

XMD: An End-to-End Framework for Interactive Explanation-Based Debugging of NLP ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

...

Xiang Ren

249

30 Oct 2022

Multilingual Auxiliary Tasks Training: Bridging the Gap between Languages for Zero-Shot Transfer of Hate Speech Detection Models

Syrielle Montariol

Arij Riabi

Djamé Seddah

364

24 Oct 2022

TCAB: A Large-Scale Text Classification Attack Benchmark

335

21 Oct 2022

Data-Efficient Strategies for Expanding Hate Speech Detection into Under-Resourced LanguagesConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Paul Röttger

Debora Nozza

Federico Bianchi

Dirk Hovy

236

20 Oct 2022

Towards Procedural Fairness: Uncovering Biases in How a Toxic Language Classifier Uses Sentiment InformationBlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP (BlackboxNLP), 2022

222

19 Oct 2022

Assessing Out-of-Domain Language Model Performance from Few ExamplesConference of the European Chapter of the Association for Computational Linguistics (EACL), 2022

231

13 Oct 2022

From Mimicking to Integrating: Knowledge Integration for Pre-Trained Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Lei Li

Yankai Lin

Xuancheng Ren

Guangxiang Zhao

Peng Li

Jie Zhou

Xu Sun

VLM

199

11 Oct 2022

Explainable Abuse Detection as Intent Classification and Slot FillingTransactions of the Association for Computational Linguistics (TACL), 2022

Agostina Calabrese

Bjorn Ross

Mirella Lapata

260

06 Oct 2022

Domain Classification-based Source-specific Term Penalization for Domain Adaptation in Hate-speech DetectionInternational Conference on Computational Linguistics (COLING), 2022

301

18 Sep 2022

Power of Explanations: Towards automatic debiasing in hate speech detectionInternational Conference on Data Science and Advanced Analytics (DSAA), 2022

181

07 Sep 2022

VisFIS: Visual Feature Importance Supervision with Right-for-the-Right-Reason ObjectivesNeural Information Processing Systems (NeurIPS), 2022

335

22 Jun 2022

Enriching Abusive Language Detection with Community Context

Jana Kurrek

Haji Mohammad Saleem

D. Ruths

209

16 Jun 2022

Challenges in Applying Explainability Methods to Improve the Fairness of NLP Models

335

08 Jun 2022

ER-Test: Evaluating Explanation Regularization Methods for Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Xiang Ren

415

25 May 2022