Universal and Transferable Adversarial Attacks on Aligned Language Models

27 July 2023

J. Zico Kolter

Papers citing "Universal and Transferable Adversarial Attacks on Aligned Language Models"

50 / 938 papers shown

Title
Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction Jarrid Rector-Brooks Mohsin Hasan Zhangzhi Peng Zachary Quinn Chenghao Liu ... Michael Bronstein Yoshua Bengio Pranam Chatterjee Alexander Tong Avishek Joey Bose DiffM 42 6 0 10 Oct 2024
Towards Assurance of LLM Adversarial Robustness using Ontology-Driven Argumentation Tomas Bueno Momcilovic Beat Buesser Giulio Zizzo Mark Purcell Tomas Bueno Momcilovic AAML 30 2 0 10 Oct 2024
How Does Vision-Language Adaptation Impact the Safety of Vision Language Models? Seongyun Lee Geewook Kim Jiyeon Kim Hyunji Lee Hoyeon Chang Sue Hyun Park Minjoon Seo 31 0 0 10 Oct 2024
MACPO: Weak-to-Strong Alignment via Multi-Agent Contrastive Preference Optimization Yougang Lyu Lingyong Yan Zihan Wang Dawei Yin Pengjie Ren Maarten de Rijke Z. Z. Ren 55 6 0 10 Oct 2024
COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act Philipp Guldimann Alexander Spiridonov Robin Staab Nikola Jovanović Mark Vero ... Mislav Balunović Nikola Konstantinov Pavol Bielik Petar Tsankov Martin Vechev ELM 45 4 0 10 Oct 2024
SEAL: Safety-enhanced Aligned LLM Fine-tuning via Bilevel Data Selection Han Shen Pin-Yu Chen Payel Das Tianyi Chen ALM 26 11 0 09 Oct 2024
Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems Donghyun Lee Mo Tiwari LLMAG 31 9 0 09 Oct 2024
Bridging Today and the Future of Humanity: AI Safety in 2024 and Beyond Shanshan Han 73 1 0 09 Oct 2024
Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy Tong Wu Shujian Zhang Kaiqiang Song Silei Xu Sanqiang Zhao Ravi Agrawal Sathish Indurthi Chong Xiang Prateek Mittal Wenxuan Zhou 37 7 0 09 Oct 2024
ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time Yi Ding Bolian Li Ruqi Zhang MLLM 67 5 0 09 Oct 2024
Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level Xinyi Zeng Yuying Shang Yutao Zhu Jingyuan Zhang Yu Tian AAML 95 2 0 09 Oct 2024
Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates Xiaosen Zheng Tianyu Pang Chao Du Qian Liu Jing Jiang Min-Bin Lin 33 8 0 09 Oct 2024
Superficial Safety Alignment Hypothesis Jianwei Li Jung-Eun Kim 24 1 0 07 Oct 2024
Collaboration! Towards Robust Neural Methods for Routing Problems Jianan Zhou Yaoxin Wu Zhiguang Cao Wen Song Jie Zhang Zhiqi Shen AAML 23 3 0 07 Oct 2024
Latent Feature Mining for Predictive Model Enhancement with Large Language Models Bingxuan Li Pengyi Shi Amy Ward 57 9 0 06 Oct 2024
Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models Yiting Dong Guobin Shen Dongcheng Zhao Xiang-Yu He Yi Zeng 34 0 0 05 Oct 2024
Functional Homotopy: Smoothing Discrete Optimization via Continuous Parameters for LLM Jailbreak Attacks Zi Wang Divyam Anshumaan Ashish Hooda Yudong Chen Somesh Jha AAML 35 0 0 05 Oct 2024
You Know What I'm Saying: Jailbreak Attack via Implicit Reference Tianyu Wu Lingrui Mei Ruibin Yuan Lujun Li Wei Xue Yike Guo 38 1 0 04 Oct 2024
Towards Assuring EU AI Act Compliance and Adversarial Robustness of LLMs Tomas Bueno Momcilovic Beat Buesser Giulio Zizzo Mark Purcell Dian Balta AAML 38 2 0 04 Oct 2024
Knowledge-Augmented Reasoning for EUAIA Compliance and Adversarial Robustness of LLMs Tomas Bueno Momcilovic Dian Balta Beat Buesser Giulio Zizzo Mark Purcell AAML 32 0 0 04 Oct 2024
Developing Assurance Cases for Adversarial Robustness and Regulatory Compliance in LLMs Tomas Bueno Momcilovic Dian Balta Beat Buesser Giulio Zizzo Mark Purcell AAML 23 0 0 04 Oct 2024
Gradient-based Jailbreak Images for Multimodal Fusion Models Javier Rando Hannah Korevaar Erik Brinkman Ivan Evtimov Florian Tramèr AAML 29 3 0 04 Oct 2024
Permissive Information-Flow Analysis for Large Language Models Shoaib Ahmed Siddiqui Radhika Gaonkar Boris Köpf David M. Krueger Andrew J. Paverd Ahmed Salem Shruti Tople Lukas Wutschitz Menglin Xia Santiago Zanella Béguelin 26 1 0 04 Oct 2024
Surgical, Cheap, and Flexible: Mitigating False Refusal in Language Models via Single Vector Ablation Xinpeng Wang Chengzhi Hu Paul Röttger Barbara Plank 46 6 0 04 Oct 2024
Output Scouting: Auditing Large Language Models for Catastrophic Responses Andrew Bell João Fonseca KELM 46 1 0 04 Oct 2024
HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router Lingrui Mei Shenghua Liu Yiwei Wang Baolong Bi Ruibin Yuan Xueqi Cheng 35 4 0 03 Oct 2024
Hate Personified: Investigating the role of LLMs in content moderation Sarah Masud Sahajpreet Singh Viktor Hangya Alexander M. Fraser Tanmoy Chakraborty 17 7 0 03 Oct 2024
AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs Xiaogeng Liu Peiran Li Edward Suh Yevgeniy Vorobeychik Zhuoqing Mao Somesh Jha Patrick McDaniel Huan Sun Bo Li Chaowei Xiao 32 17 0 03 Oct 2024
Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models Guobin Shen Dongcheng Zhao Yiting Dong Xiang-Yu He Yi Zeng AAML 45 0 0 03 Oct 2024
Undesirable Memorization in Large Language Models: A Survey Ali Satvaty Suzan Verberne Fatih Turkmen ELM PILM 69 7 0 03 Oct 2024
Erasing Conceptual Knowledge from Language Models Rohit Gandikota Sheridan Feucht Samuel Marks David Bau KELM ELM MU 40 5 0 03 Oct 2024
Automated Red Teaming with GOAT: the Generative Offensive Agent Tester Maya Pavlova Erik Brinkman Krithika Iyer Vítor Albiero Joanna Bitton Hailey Nguyen J. Li Cristian Canton Ferrer Ivan Evtimov Aaron Grattafiori ALM 31 8 0 02 Oct 2024
HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models Seanie Lee Haebin Seong Dong Bok Lee Minki Kang Xiaoyin Chen Dominik Wagner Yoshua Bengio Juho Lee Sung Ju Hwang 65 2 0 02 Oct 2024
Endless Jailbreaks with Bijection Learning Brian R. Y. Huang Maximilian Li Leonard Tang AAML 75 5 0 02 Oct 2024
PyRIT: A Framework for Security Risk Identification and Red Teaming in Generative AI System Gary D. Lopez Munoz Amanda Minnich Roman Lutz Richard Lundeen Raja Sekhar Rao Dheekonda ... Tori Westerhoff Chang Kawaguchi Christian Seifert Ram Shankar Siva Kumar Yonatan Zunger SILM 32 8 0 01 Oct 2024
VLMGuard: Defending VLMs against Malicious Prompts via Unlabeled Data Xuefeng Du Reshmi Ghosh Robert Sim Ahmed Salem Vitor Carvalho Emily Lawton Yixuan Li Jack W. Stokes VLM AAML 38 5 0 01 Oct 2024
Do Influence Functions Work on Large Language Models? Zhe Li Wei Zhao Yige Li Jun Sun TDI 28 1 0 30 Sep 2024
Mitigating Backdoor Threats to Large Language Models: Advancement and Challenges Qin Liu Wenjie Mo Terry Tong Jiashu Xu Fei Wang Chaowei Xiao Muhao Chen AAML 31 4 0 30 Sep 2024
Robust LLM safeguarding via refusal feature adversarial training L. Yu Virginie Do Karen Hambardzumyan Nicola Cancedda AAML 56 10 0 30 Sep 2024
Identifying Knowledge Editing Types in Large Language Models Xiaopeng Li Shangwen Wang Shezheng Song Bin Ji Huijun Liu Shasha Li Jun Ma Jie Yu KELM 26 1 0 29 Sep 2024
GenTel-Safe: A Unified Benchmark and Shielding Framework for Defending Against Prompt Injection Attacks Rongchang Li Minjie Chen Chang Hu Han Chen Wenpeng Xing Meng Han SILM ELM 31 1 0 29 Sep 2024
Multimodal Pragmatic Jailbreak on Text-to-image Models Tong Liu Zhixin Lai Gengyuan Zhang Philip H. S. Torr Vera Demberg Volker Tresp Jindong Gu 30 4 0 27 Sep 2024
Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey Tiansheng Huang Sihao Hu Fatih Ilhan Selim Furkan Tekin Ling Liu AAML 40 21 0 26 Sep 2024
MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks Giandomenico Cornacchia Giulio Zizzo Kieran Fraser Muhammad Zaid Hameed Ambrish Rawat Mark Purcell 26 1 0 26 Sep 2024
AI Delegates with a Dual Focus: Ensuring Privacy and Strategic Self-Disclosure Xi Chen Zhiyang Zhang Fangkai Yang Xiaoting Qin Chao Du ... Hangxin Liu Qingwei Lin Saravan Rajmohan Dongmei Zhang Qi Zhang 37 1 0 26 Sep 2024
RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking Yifan Jiang Kriti Aggarwal Tanmay Laud Kashif Munir Jay Pujara Subhabrata Mukherjee AAML 46 10 0 26 Sep 2024
An Adversarial Perspective on Machine Unlearning for AI Safety Jakub Łucki Boyi Wei Yangsibo Huang Peter Henderson F. Tramèr Javier Rando MU AAML 71 31 0 26 Sep 2024
LLM Echo Chamber: personalized and automated disinformation Tony Ma 26 0 0 24 Sep 2024
Steward: Natural Language Web Automation Brian Tang Kang G. Shin LLMAG 29 1 0 23 Sep 2024
Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI Ambrish Rawat Stefan Schoepf Giulio Zizzo Giandomenico Cornacchia Muhammad Zaid Hameed ... Elizabeth M. Daly Mark Purcell P. Sattigeri Pin-Yu Chen Kush R. Varshney AAML 40 7 0 23 Sep 2024