Universal and Transferable Adversarial Attacks on Aligned Language Models

27 July 2023

J. Zico Kolter

Papers citing "Universal and Transferable Adversarial Attacks on Aligned Language Models"

50 / 938 papers shown

Title
Watermark Stealing in Large Language Models Nikola Jovanović Robin Staab Martin Vechev WaLM AAML 38 30 0 29 Feb 2024
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment Yiju Guo Ganqu Cui Lifan Yuan Ning Ding Jiexin Wang ... Ruobing Xie Jie Zhou Yankai Lin Zhiyuan Liu Maosong Sun 36 56 0 29 Feb 2024
A New Era in LLM Security: Exploring Security Concerns in Real-World LLM-based Systems Fangzhou Wu Ning Zhang Somesh Jha P. McDaniel Chaowei Xiao 32 68 0 28 Feb 2024
Exploring Multilingual Concepts of Human Value in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages? Shaoyang Xu Weilong Dong Zishan Guo Xinwei Wu Deyi Xiong 33 6 0 28 Feb 2024
Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction Tong Liu Yingjie Zhang Zhe Zhao Yinpeng Dong Guozhu Meng Kai Chen AAML 43 44 0 28 Feb 2024
Exploring Advanced Methodologies in Security Evaluation for LLMs Junming Huang Jiawei Zhang Qi Wang Weihong Han Yanchun Zhang 40 0 0 28 Feb 2024
On the Challenges and Opportunities in Generative AI Laura Manduchi Kushagra Pandey Robert Bamler Ryan Cotterell Sina Daubener ... F. Wenzel Frank Wood Stephan Mandt Vincent Fortuin Vincent Fortuin 56 17 0 28 Feb 2024
Adversarial Math Word Problem Generation Roy Xie Chengxuan Huang Junlin Wang Bhuwan Dhingra AAML 28 1 0 27 Feb 2024
On the Societal Impact of Open Foundation Models Sayash Kapoor Rishi Bommasani Kevin Klyman Shayne Longpre Ashwin Ramaswami ... Victor Storchan Daniel Zhang Daniel E. Ho Percy Liang Arvind Narayanan 26 54 0 27 Feb 2024
Securing Reliability: A Brief Overview on Enhancing In-Context Learning for Foundation Models Yunpeng Huang Yaonan Gu Jingwei Xu Zhihong Zhu Zhaorun Chen Xiaoxing Ma 35 3 0 27 Feb 2024
Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue Zhenhong Zhou Jiuyang Xiang Haopeng Chen Quan Liu Zherui Li Sen Su 32 19 0 27 Feb 2024
Eight Methods to Evaluate Robust Unlearning in LLMs Aengus Lynch Phillip Guo Aidan Ewart Stephen Casper Dylan Hadfield-Menell ELM MU 35 56 0 26 Feb 2024
Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts Mikayel Samvelyan Sharath Chandra Raparthy Andrei Lupu Eric Hambro Aram H. Markosyan ... Minqi Jiang Jack Parker-Holder Jakob Foerster Tim Rocktaschel Roberta Raileanu SyDa 68 62 0 26 Feb 2024
CodeChameleon: Personalized Encryption Framework for Jailbreaking Large Language Models Huijie Lv Xiao Wang Yuan Zhang Caishuang Huang Shihan Dou Junjie Ye Tao Gui Qi Zhang Xuanjing Huang AAML 34 29 0 26 Feb 2024
Defending LLMs against Jailbreaking Attacks via Backtranslation Yihan Wang Zhouxing Shi Andrew Bai Cho-Jui Hsieh AAML 32 32 0 26 Feb 2024
RoCoIns: Enhancing Robustness of Large Language Models through Code-Style Instructions Yuan Zhang Xiao Wang Zhiheng Xi Han Xia Tao Gui Qi Zhang Xuanjing Huang 31 3 0 26 Feb 2024
Immunization against harmful fine-tuning attacks Domenic Rosati Jan Wehner Kai Williams Lukasz Bartoszcze Jan Batzner Hassan Sajjad Frank Rudzicz AAML 57 16 0 26 Feb 2024
HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination Tendency of LLMs Cem Uluoglakci T. Taşkaya-Temizel HILM 35 2 0 25 Feb 2024
Defending Large Language Models against Jailbreak Attacks via Semantic Smoothing Jiabao Ji Bairu Hou Alexander Robey George J. Pappas Hamed Hassani Yang Zhang Eric Wong Shiyu Chang AAML 37 39 0 25 Feb 2024
DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers Xirui Li Ruochen Wang Minhao Cheng Tianyi Zhou Cho-Jui Hsieh AAML 39 37 0 25 Feb 2024
ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings Hao Wang Hao Li Minlie Huang Lei Sha AAML 35 12 0 25 Feb 2024
PRP: Propagating Universal Perturbations to Attack Large Language Model Guard-Rails Neal Mangaokar Ashish Hooda Jihye Choi Shreyas Chandrashekaran Kassem Fawaz Somesh Jha Atul Prakash AAML 27 35 0 24 Feb 2024
LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A Vision Paper Daoyuan Wu Shuaibao Wang Yang Liu Ning Liu AAML 37 7 0 24 Feb 2024
Foot In The Door: Understanding Large Language Model Jailbreaking via Cognitive Psychology Zhenhua Wang Wei Xie Baosheng Wang Enze Wang Zhiwen Gui Shuoyoucheng Ma Kai Chen 28 14 0 24 Feb 2024
Fast Adversarial Attacks on Language Models In One GPU Minute Vinu Sankar Sadasivan Shoumik Saha Gaurang Sriramanan Priyatham Kattakinda Atoosa Malemir Chegini S. Feizi MIALM 30 32 0 23 Feb 2024
How (un)ethical are instruction-centric responses of LLMs? Unveiling the vulnerabilities of safety guardrails to harmful queries Somnath Banerjee Sayan Layek Rima Hazra Animesh Mukherjee 24 11 0 23 Feb 2024
Break the Breakout: Reinventing LM Defense Against Jailbreak Attacks with Self-Refinement Heegyu Kim Sehyun Yuk Hyunsouk Cho AAML 36 16 0 23 Feb 2024
On the Duality Between Sharpness-Aware Minimization and Adversarial Training Yihao Zhang Hangzhou He Jingyu Zhu Huanran Chen Yifei Wang Zeming Wei AAML 29 9 0 23 Feb 2024
Prompting a Pretrained Transformer Can Be a Universal Approximator Aleksandar Petrov Philip H. S. Torr Adel Bibi 26 11 0 22 Feb 2024
Stop Reasoning! When Multimodal LLMs with Chain-of-Thought Reasoning Meets Adversarial Images Zefeng Wang Zhen Han Shuo Chen Fan Xue Zifeng Ding Xun Xiao Volker Tresp Philip H. S. Torr Jindong Gu LRM 44 14 0 22 Feb 2024
Coercing LLMs to do and reveal (almost) anything Jonas Geiping Alex Stein Manli Shu Khalid Saifullah Yuxin Wen Tom Goldstein AAML 34 43 0 21 Feb 2024
Large Language Models are Vulnerable to Bait-and-Switch Attacks for Generating Harmful Content Federico Bianchi James Y. Zou 32 4 0 21 Feb 2024
Semantic Mirror Jailbreak: Genetic Algorithm Based Jailbreak Prompts Against Open-source LLMs Xiaoxia Li Siyuan Liang Jiyi Zhang Hansheng Fang Aishan Liu Ee-Chien Chang 90 24 0 21 Feb 2024
Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning Zhaorui Yang Tianyu Pang H. Feng Han Wang Wei Chen Minfeng Zhu Qian Liu ALM 29 34 0 21 Feb 2024
Learning to Poison Large Language Models During Instruction Tuning Yao Qiang Xiangyu Zhou Saleh Zare Zade Mohammad Amin Roshani Douglas Zytko Dongxiao Zhu AAML SILM 32 20 0 21 Feb 2024
A Comprehensive Study of Jailbreak Attack versus Defense for Large Language Models Zihao Xu Yi Liu Gelei Deng Yuekang Li S. Picek PILM AAML 28 35 0 21 Feb 2024
The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative Zhen Tan Chengshuai Zhao Raha Moraffah Yifan Li Yu Kong Tianlong Chen Huan Liu 36 15 0 20 Feb 2024
Is the System Message Really Important to Jailbreaks in Large Language Models? Xiaotian Zou Yongkang Chen Ke Li 22 13 0 20 Feb 2024
TRAP: Targeted Random Adversarial Prompt Honeypot for Black-Box Identification Martin Gubri Dennis Ulmer Hwaran Lee Sangdoo Yun Seong Joon Oh SILM 384 5 1 20 Feb 2024
Defending Jailbreak Prompts via In-Context Adversarial Game Yujun Zhou Yufei Han Haomin Zhuang Kehan Guo Zhenwen Liang Hongyan Bao Xiangliang Zhang LLMAG AAML 22 11 0 20 Feb 2024
Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! Zhanhui Zhou Jie Liu Zhichen Dong Jiaheng Liu Chao Yang Wanli Ouyang Yu Qiao 15 16 0 19 Feb 2024
Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models Christian Schlarmann Naman D. Singh Francesco Croce Matthias Hein VLM AAML 39 37 0 19 Feb 2024
Query-Based Adversarial Prompt Generation Jonathan Hayase Ema Borevkovic Nicholas Carlini Florian Tramèr Milad Nasr AAML SILM 43 25 0 19 Feb 2024
A Chinese Dataset for Evaluating the Safeguards in Large Language Models Yuxia Wang Zenan Zhai Haonan Li Xudong Han Lizhi Lin Zhenxuan Zhang Jingru Zhao Preslav Nakov Timothy Baldwin 42 9 0 19 Feb 2024
Your Large Language Model is Secretly a Fairness Proponent and You Should Prompt it Like One Tianlin Li Xiaoyu Zhang Chao Du Tianyu Pang Qian Liu Qing-Wu Guo Chao Shen Yang Liu ALM 31 10 0 19 Feb 2024
SPML: A DSL for Defending Language Models Against Prompt Attacks Reshabh K Sharma Vinayak Gupta Dan Grossman AAML 49 14 0 19 Feb 2024
ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs Fengqing Jiang Zhangchen Xu Luyao Niu Zhen Xiang Bhaskar Ramasubramanian Bo Li Radha Poovendran 26 86 0 19 Feb 2024
Language Models are Homer Simpson! Safety Re-Alignment of Fine-tuned Language Models through Task Arithmetic Rishabh Bhardwaj Do Duc Anh Soujanya Poria MoMe 50 36 0 19 Feb 2024
How Susceptible are Large Language Models to Ideological Manipulation? Kai Chen Zihao He Jun Yan Taiwei Shi Kristina Lerman 27 10 0 18 Feb 2024
Recovering the Pre-Fine-Tuning Weights of Generative Models Eliahu Horwitz Jonathan Kahana Yedid Hoshen 45 9 0 15 Feb 2024