Gradient-Based Language Model Red Teaming

30 January 2024

Papers citing "Gradient-Based Language Model Red Teaming"

20 / 20 papers shown

Title
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong X. Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Yu Jiang ALM ELM 84 1 0 26 Apr 2025
Building Safe GenAI Applications: An End-to-End Overview of Red Teaming for Large Language Models Alberto Purpura Sahil Wadhwa Jesse Zymet Akshay Gupta Andy Luo Melissa Kazemi Rad Swapnil Shinde Mohammad Sorower AAML 135 0 0 03 Mar 2025
REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective Simon Geisler Tom Wollschlager M. H. I. Abdalla Vincent Cohen-Addad Johannes Gasteiger Stephan Günnemann AAML 86 2 0 24 Feb 2025
Text-Diffusion Red-Teaming of Large Language Models: Unveiling Harmful Behaviors with Proximity Constraints Jonathan Nöther Adish Singla Goran Radanović AAML 57 0 0 14 Jan 2025
Diverse and Effective Red Teaming with Auto-generated Rewards and Multi-step Reinforcement Learning Alex Beutel Kai Y. Xiao Johannes Heidecke Lilian Weng AAML 43 3 0 24 Dec 2024
DiffusionAttacker: Diffusion-Driven Prompt Manipulation for LLM Jailbreak Hao Wang Hao Li Junda Zhu Xinyuan Wang C. Pan Minlie Huang Lei Sha 106 0 0 23 Dec 2024
Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs) Apurv Verma Satyapriya Krishna Sebastian Gehrmann Madhavan Seshadri Anu Pradhan Tom Ault Leslie Barrett David Rabinowitz John Doucette Nhathai Phan 47 9 0 20 Jul 2024
Securing Multi-turn Conversational Language Models Against Distributed Backdoor Triggers Terry Tong Jiashu Xu Qin Liu Muhao Chen AAML SILM 37 1 0 04 Jul 2024
Automated Adversarial Discovery for Safety Classifiers Yash Kumar Lal Preethi Lahoti Aradhana Sinha Yao Qin Ananth Balashankar 44 0 0 24 Jun 2024
Impact of Non-Standard Unicode Characters on Security and Comprehension in Large Language Models Johan S Daniel Anand Pal 30 0 0 23 May 2024
SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models Raghuveer Peri Sai Muralidhar Jayanthi S. Ronanki Anshu Bhatia Karel Mundnich ... Srikanth Vishnubhotla Daniel Garcia-Romero S. Srinivasan Kyu J. Han Katrin Kirchhoff AAML 32 3 0 14 May 2024
Holistic Safety and Responsibility Evaluations of Advanced AI Models Laura Weidinger Joslyn Barnhart Jenny Brennan Christina Butterfield Susie Young ... Sebastian Farquhar Lewis Ho Iason Gabriel Allan Dafoe William S. Isaac ELM 29 8 0 22 Apr 2024
Towards Measuring and Modeling "Culture" in LLMs: A Survey Muhammad Farid Adilazuarda Sagnik Mukherjee Pradhyumna Lavania Siddhant Singh Alham Fikri Aji Jacki OÑeill Ashutosh Modi Monojit Choudhury 52 53 0 05 Mar 2024
ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings Hao Wang Hao Li Minlie Huang Lei Sha AAML 35 12 0 25 Feb 2024
Attacking Large Language Models with Projected Gradient Descent Simon Geisler Tom Wollschlager M. H. I. Abdalla Johannes Gasteiger Stephan Günnemann AAML SILM 42 49 0 14 Feb 2024
COLD-Attack: Jailbreaking LLMs with Stealthiness and Controllability Xing-ming Guo Fangxu Yu Huan Zhang Lianhui Qin Bin Hu AAML 117 69 0 13 Feb 2024
Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts Zhi-Yi Chin Chieh-Ming Jiang Ching-Chun Huang Pin-Yu Chen Wei-Chen Chiu DiffM 11 65 0 12 Sep 2023
FLIRT: Feedback Loop In-context Red Teaming Ninareh Mehrabi Palash Goyal Christophe Dupuy Qian Hu Shalini Ghosh R. Zemel Kai-Wei Chang Aram Galstyan Rahul Gupta DiffM 21 55 0 08 Aug 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 308 11,909 0 04 Mar 2022
Gradient-based Adversarial Attacks against Text Transformers Chuan Guo Alexandre Sablayrolles Hervé Jégou Douwe Kiela SILM 98 227 0 15 Apr 2021