Attributional Safety Failures in Large Language Models under Code-Mixed Perturbations

20 May 2025

Papers citing "Attributional Safety Failures in Large Language Models under Code-Mixed Perturbations"

5 / 5 papers shown

Title
Soteria: Language-Specific Functional Parameter Steering for Multilingual Safety Alignment Somnath Banerjee Sayan Layek Pratyush Chatterjee Animesh Mukherjee Rima Hazra LLMSV 98 1 0 16 Feb 2025
Ethical and social risks of harm from Language Models Laura Weidinger John F. J. Mellor Maribeth Rauh Conor Griffin J. Uesato ... Lisa Anne Hendricks William S. Isaac Sean Legassick G. Irving Iason Gabriel PILM 61 1,009 0 08 Dec 2021
Persistent Anti-Muslim Bias in Large Language Models Abubakar Abid Maheen Farooqi James Zou AILaw 70 545 0 14 Jan 2021
GLUECoS : An Evaluation Benchmark for Code-Switched NLP Simran Khanuja Sandipan Dandapat A. Srinivasan Sunayana Sitaram Monojit Choudhury ELM 39 146 0 26 Apr 2020
Axiomatic Attribution for Deep Networks Mukund Sundararajan Ankur Taly Qiqi Yan OOD FAtt 108 5,920 0 04 Mar 2017