Universal and Transferable Adversarial Attacks on Aligned Language Models

27 July 2023

J. Zico Kolter

Papers citing "Universal and Transferable Adversarial Attacks on Aligned Language Models"

50 / 938 papers shown

Title
Exploiting Instruction-Following Retrievers for Malicious Information Retrieval Parishad BehnamGhader Nicholas Meade Siva Reddy 60 0 0 11 Mar 2025
Backtracking for Safety Bilgehan Sel Dingcheng Li Phillip Wallis Vaishakh Keshava Ming Jin Siddhartha Reddy Jonnalagadda KELM 55 0 0 11 Mar 2025
Utilizing Jailbreak Probability to Attack and Safeguard Multimodal LLMs Wenzhuo Xu Zhipeng Wei Xiongtao Sun Deyue Zhang Dongdong Yang Quanchen Zou X. Zhang AAML 47 0 0 10 Mar 2025
CtrlRAG: Black-box Adversarial Attacks Based on Masked Language Models in Retrieval-Augmented Language Generation Runqi Sui AAML 32 0 0 10 Mar 2025
Safety Guardrails for LLM-Enabled Robots Zachary Ravichandran Alexander Robey Vijay R. Kumar George Pappas Hamed Hassani 56 0 0 10 Mar 2025
Trustworthy Machine Learning via Memorization and the Granular Long-Tail: A Survey on Interactions, Tradeoffs, and Beyond Qiongxiu Li Xiaoyu Luo Yiyi Chen Johannes Bjerva 43 0 0 10 Mar 2025
Life-Cycle Routing Vulnerabilities of LLM Router Qiqi Lin Xiaoyang Ji Shengfang Zhai Qingni Shen Zhi-Li Zhang Yuejian Fang Yansong Gao AAML 54 1 0 09 Mar 2025
Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models Thomas Winninger Boussad Addad Katarzyna Kapusta AAML 63 0 0 08 Mar 2025
ToxicSQL: Migrating SQL Injection Threats into Text-to-SQL Models via Backdoor Attack Meiyu Lin Haichuan Zhang Jiale Lao Renyuan Li Yuanchun Zhou Carl Yang Yang Cao Mingjie Tang SILM 64 0 0 07 Mar 2025
Jailbreaking is (Mostly) Simpler Than You Think M. Russinovich Ahmed Salem AAML 61 0 0 07 Mar 2025
Uncovering Gaps in How Humans and LLMs Interpret Subjective Language Erik Jones Arjun Patrawala Jacob Steinhardt 47 0 0 06 Mar 2025
SafeArena: Evaluating the Safety of Autonomous Web Agents Ada Defne Tur Nicholas Meade Xing Han Lù Alejandra Zambrano Arkil Patel Esin Durmus Spandana Gella Karolina Stañczak Siva Reddy LLMAG ELM 85 2 0 06 Mar 2025
Improving LLM Safety Alignment with Dual-Objective Optimization Xuandong Zhao Will Cai Tianneng Shi David Huang Licong Lin Song Mei Dawn Song AAML MU 64 1 0 05 Mar 2025
Adversarial Training for Multimodal Large Language Models against Jailbreak Attacks Liming Lu Shuchao Pang Siyuan Liang Haotian Zhu Xiyu Zeng Aishan Liu Yunhuai Liu Yongbin Zhou AAML 49 1 0 05 Mar 2025
Adversarial Tokenization Renato Lui Geh Zilei Shao Guy Van den Broeck SILM AAML 85 0 0 04 Mar 2025
LLM-Safety Evaluations Lack Robustness Tim Beyer Sophie Xhonneux Simon Geisler Gauthier Gidel Leo Schwinn Stephan Günnemann ALM ELM 127 0 0 04 Mar 2025
Building Safe GenAI Applications: An End-to-End Overview of Red Teaming for Large Language Models Alberto Purpura Sahil Wadhwa Jesse Zymet Akshay Gupta Andy Luo Melissa Kazemi Rad Swapnil Shinde Mohammad Sorower AAML 112 0 0 03 Mar 2025
Adaptively evaluating models with task elicitation Davis Brown Prithvi Balehannina Helen Jin Shreya Havaldar Hamed Hassani Eric Wong ALM ELM 88 0 0 03 Mar 2025
Position: Ensuring mutual privacy is necessary for effective external evaluation of proprietary AI systems Ben Bucknall Robert F. Trager Michael A. Osborne 80 0 0 03 Mar 2025
Cats Confuse Reasoning LLM: Query Agnostic Adversarial Triggers for Reasoning Models Meghana Arakkal Rajeev Rajkumar Ramamurthy Prapti Trivedi Vikas Yadav Oluwanifemi Bamgbose Sathwik Tejaswi Madhusudan James Y. Zou Nazneen Rajani AAML LRM 45 2 0 03 Mar 2025
UDora: A Unified Red Teaming Framework against LLM Agents by Dynamically Hijacking Their Own Reasoning J. Zhang Shuang Yang B. Li AAML LLMAG 53 0 0 28 Feb 2025
Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks Hanjiang Hu Alexander Robey Changliu Liu AAML LLMSV 47 1 0 28 Feb 2025
FC-Attack: Jailbreaking Large Vision-Language Models via Auto-Generated Flowcharts Ziyi Zhang Zhen Sun Z. Zhang Jihui Guo Xinlei He AAML 47 2 0 28 Feb 2025
Beware of Your Po! Measuring and Mitigating AI Safety Risks in Role-Play Fine-Tuning of LLMs Weixiang Zhao Yulin Hu Yang Deng Jiahe Guo Xingyu Sui ... An Zhang Yanyan Zhao Bing Qin Tat-Seng Chua Ting Liu 60 1 0 28 Feb 2025
À la recherche du sens perdu: your favourite LLM might have more to say than you can understand K. O. T. Erziev 34 0 0 28 Feb 2025
Foot-In-The-Door: A Multi-turn Jailbreak for LLMs Zixuan Weng Xiaolong Jin Jinyuan Jia X. Zhang AAML 90 0 0 27 Feb 2025
Societal Alignment Frameworks Can Improve LLM Alignment Karolina Stañczak Nicholas Meade Mehar Bhatia Hattie Zhou Konstantin Böttinger ... Timothy P. Lillicrap Ana Marasović Sylvie Delacroix Gillian K. Hadfield Siva Reddy 92 0 0 27 Feb 2025
Automatic Prompt Optimization via Heuristic Search: A Survey Wendi Cui Jiaxin Zhang Z. Li Hao Sun Damien Lopez Kamalika Das Bradley Malin Sricharan Kumar 34 1 0 26 Feb 2025
Shh, don't say that! Domain Certification in LLMs Cornelius Emde Alasdair Paren Preetham Arvind Maxime Kayser Tom Rainforth Thomas Lukasiewicz Bernard Ghanem Philip H. S. Torr Adel Bibi 45 1 0 26 Feb 2025
JailBench: A Comprehensive Chinese Security Assessment Benchmark for Large Language Models Shuyi Liu Simiao Cui Haoran Bu Yuming Shang Xi Zhang ELM 62 0 0 26 Feb 2025
On the Robustness of Transformers against Context Hijacking for Linear Classification Tianle Li Chenyang Zhang Xingwu Chen Yuan Cao Difan Zou 67 0 0 24 Feb 2025
REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective Simon Geisler Tom Wollschlager M. H. I. Abdalla Vincent Cohen-Addad Johannes Gasteiger Stephan Günnemann AAML 86 2 0 24 Feb 2025
GuidedBench: Equipping Jailbreak Evaluation with Guidelines Ruixuan Huang Xunguang Wang Zongjie Li Daoyuan Wu Shuai Wang ALM ELM 55 0 0 24 Feb 2025
SafeInt: Shielding Large Language Models from Jailbreak Attacks via Safety-Aware Representation Intervention Jiaqi Wu Chen Chen Chunyan Hou Xiaojie Yuan AAML 54 0 0 24 Feb 2025
The Geometry of Refusal in Large Language Models: Concept Cones and Representational Independence Tom Wollschlager Jannes Elstner Simon Geisler Vincent Cohen-Addad Stephan Günnemann Johannes Gasteiger LLMSV 62 0 0 24 Feb 2025
Model Lakes Koyena Pal David Bau Renée J. Miller 63 0 0 24 Feb 2025
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement Zhexin Zhang Leqi Lei Junxiao Yang Xijie Huang Yida Lu ... Xianqi Lei C. Pan Lei Sha H. Wang Minlie Huang AAML 43 0 0 24 Feb 2025
Adversarial Prompt Evaluation: Systematic Benchmarking of Guardrails Against Prompt Input Attacks on LLMs Giulio Zizzo Giandomenico Cornacchia Kieran Fraser Muhammad Zaid Hameed Ambrish Rawat Beat Buesser Mark Purcell Pin-Yu Chen P. Sattigeri Kush R. Varshney AAML 43 1 0 24 Feb 2025
Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System Saikat Barua Mostafizur Rahman Md Jafor Sadek Rafiul Islam Shehnaz Khaled Ahmedul Kabir LLMAG 58 1 0 23 Feb 2025
Intrinsic Model Weaknesses: How Priming Attacks Unveil Vulnerabilities in Large Language Models Yuyi Huang Runzhe Zhan Derek F. Wong Lidia S. Chao Ailin Tao AAML SyDa ELM 51 0 0 23 Feb 2025
Unified Prompt Attack Against Text-to-Image Generation Models Duo Peng Qiuhong Ke Mark He Huang Ping Hu J. Liu 41 0 0 23 Feb 2025
A generative approach to LLM harmfulness detection with special red flag tokens Sophie Xhonneux David Dobre Mehrnaz Mohfakhami Leo Schwinn Gauthier Gidel 47 1 0 22 Feb 2025
Merger-as-a-Stealer: Stealing Targeted PII from Aligned LLMs with Model Merging Lin Lu Zhigang Zuo Ziji Sheng Pan Zhou MoMe 48 0 0 22 Feb 2025
ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models X. Liu Siyuan Liang M. Han Yong Luo Aishan Liu Xiantao Cai Zheng He Dacheng Tao AAML SILM ELM 34 1 0 22 Feb 2025
MergePrint: Merge-Resistant Fingerprints for Robust Black-box Ownership Verification of Large Language Models Shojiro Yamabe Tsubasa Takahashi Futa Waseda Koki Wataoka MoMe 81 1 0 21 Feb 2025
Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation Shuo Tang Xianghe Pang Zexi Liu Bohan Tang Rui Ye Xiaowen Dong Y. Wang Yanfeng Wang S. Chen SyDa LLMAG 127 3 0 21 Feb 2025
Robust Concept Erasure Using Task Vectors Minh Pham Kelly O. Marshall Chinmay Hegde Niv Cohen 115 17 0 21 Feb 2025
Eliminating Backdoors in Neural Code Models for Secure Code Understanding Weisong Sun Yuchen Chen Chunrong Fang Yebo Feng Yuan Xiao An Guo Quanjun Zhang Yang Liu Baowen Xu Zhenyu Chen AAML 98 1 0 21 Feb 2025
Making Them a Malicious Database: Exploiting Query Code to Jailbreak Aligned Large Language Models Qingsong Zou Jingyu Xiao Qing Li Zhi Yan Y. Wang Li Xu Wenxuan Wang Kuofeng Gao Ruoyu Li Yong-jia Jiang AAML 132 0 0 21 Feb 2025
TurboFuzzLLM: Turbocharging Mutation-based Fuzzing for Effectively Jailbreaking Large Language Models in Practice Aman Goel Xian Carrie Wu Zhe Wang Dmitriy Bespalov Yanjun Qi 44 0 0 21 Feb 2025