Universal and Transferable Adversarial Attacks on Aligned Language Models

27 July 2023

J. Zico Kolter

Papers citing "Universal and Transferable Adversarial Attacks on Aligned Language Models"

50 / 938 papers shown

Title
Serial Position Effects of Large Language Models Xiaobo Guo Soroush Vosoughi 41 3 0 23 Jun 2024
Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers Manuel Mondal Ljiljana Dolamic Gérôme Bovet Philippe Cudré-Mauroux Julien Audiffren 38 2 0 21 Jun 2024
Steering Without Side Effects: Improving Post-Deployment Control of Language Models Asa Cooper Stickland Alexander Lyzhov Jacob Pfau Salsabila Mahdi Samuel R. Bowman LLMSV AAML 57 18 0 21 Jun 2024
Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference Anton Xue Avishree Khare Rajeev Alur Surbhi Goel Eric Wong 51 2 0 21 Jun 2024
PKU-SafeRLHF: A Safety Alignment Preference Dataset for Llama Family Models Jiaming Ji Donghai Hong Borong Zhang Boyuan Chen Josef Dai Boren Zheng Tianyi Qiu Boxun Li Yaodong Yang 42 24 0 20 Jun 2024
The Fire Thief Is Also the Keeper: Balancing Usability and Privacy in Prompts Zhili Shen Zihang Xi Ying He Wei Tong Jingyu Hua Sheng Zhong SILM 40 7 0 20 Jun 2024
Prompt Injection Attacks in Defended Systems Daniil Khomsky Narek Maloyan Bulat Nutfullin AAML SILM 30 3 0 20 Jun 2024
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Tinghao Xie Xiangyu Qi Yi Zeng Yangsibo Huang Udari Madhushani Sehwag ... Bo Li Kai Li Danqi Chen Peter Henderson Prateek Mittal ALM ELM 50 51 0 20 Jun 2024
AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents Edoardo Debenedetti Jie Zhang Mislav Balunović Luca Beurer-Kellner Marc Fischer Florian Tramèr LLMAG AAML 48 25 1 19 Jun 2024
Enhancing Cross-Prompt Transferability in Vision-Language Models through Contextual Injection of Target Tokens Xikang Yang Xuehai Tang Fuqing Zhu Jizhong Han Songlin Hu VLM AAML 34 1 0 19 Jun 2024
SHIELD: Evaluation and Defense Strategies for Copyright Compliance in LLM Text Generation Xiaoze Liu Ting Sun Tianyang Xu Feijie Wu Cunxiang Wang Xiaoqian Wang Jing Gao AAML DeLMO AILaw 39 16 0 18 Jun 2024
[WIP] Jailbreak Paradox: The Achilles' Heel of LLMs Abhinav Rao Monojit Choudhury Somak Aditya 24 0 0 18 Jun 2024
Adversarial Attacks on Large Language Models in Medicine Yifan Yang Qiao Jin Furong Huang Zhiyong Lu AAML 34 4 0 18 Jun 2024
CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models Yuetai Li Zhangchen Xu Fengqing Jiang Luyao Niu D. Sahabandu Bhaskar Ramasubramanian Radha Poovendran SILM AAML 52 6 0 18 Jun 2024
IDs for AI Systems Alan Chan Noam Kolt Peter Wills Usman Anwar Christian Schroeder de Witt Nitarshan Rajkumar Lewis Hammond David M. Krueger Lennart Heim Markus Anderljung 41 6 0 17 Jun 2024
Who's asking? User personas and the mechanics of latent misalignment Asma Ghandeharioun Ann Yuan Marius Guerard Emily Reif Michael A. Lepori Lucas Dixon LLMSV 41 7 0 17 Jun 2024
Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner Kenneth Li Yiming Wang Fernanda Viégas Martin Wattenberg 30 6 0 17 Jun 2024
Split, Unlearn, Merge: Leveraging Data Attributes for More Effective Unlearning in LLMs S. Kadhe Farhan Ahmed Dennis Wei Nathalie Baracaldo Inkit Padhi MoMe MU 28 6 0 17 Jun 2024
STAR: SocioTechnical Approach to Red Teaming Language Models Laura Weidinger John F. J. Mellor Bernat Guillen Pegueroles Nahema Marchal Ravin Kumar ... Mark Diaz Stevie Bergman Mikel Rodriguez Verena Rieser William S. Isaac VLM 34 7 0 17 Jun 2024
Refusal in Language Models Is Mediated by a Single Direction Andy Arditi Oscar Obeso Aaquib Syed Daniel Paleka Nina Panickssery Wes Gurnee Neel Nanda 45 133 0 17 Jun 2024
Knowledge-to-Jailbreak: One Knowledge Point Worth One Attack Shangqing Tu Zhuoran Pan Wenxuan Wang Zhexin Zhang Yuliang Sun Jifan Yu Hongning Wang Lei Hou Juanzi Li ALM 42 1 0 17 Jun 2024
SUGARCREPE++ Dataset: Vision-Language Model Sensitivity to Semantic and Lexical Alterations Sri Harsha Dumpala Aman Jaiswal Chandramouli Shama Sastry E. Milios Sageev Oore Hassan Sajjad CoGe 35 9 0 17 Jun 2024
SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model Yongting Zhang Lu Chen Guodong Zheng Yifeng Gao Rui Zheng ... Yu Qiao Xuanjing Huang Feng Zhao Tao Gui Jing Shao VLM 79 23 0 17 Jun 2024
garak: A Framework for Security Probing Large Language Models Leon Derczynski Erick Galinkin Jeffrey Martin Subho Majumdar Nanna Inie AAML ELM 38 16 0 16 Jun 2024
Threat Modelling and Risk Analysis for Large Language Model (LLM)-Powered Applications Stephen Burabari Tete 34 6 0 16 Jun 2024
Towards Understanding Jailbreak Attacks in LLMs: A Representation Space Analysis Yuping Lin Pengfei He Han Xu Yue Xing Makoto Yamada Hui Liu Jiliang Tang 34 10 0 16 Jun 2024
Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models Rui Ye Jingyi Chai Xiangrui Liu Yaodong Yang Yanfeng Wang Siheng Chen AAML 50 8 0 15 Jun 2024
CHiSafetyBench: A Chinese Hierarchical Safety Benchmark for Large Language Models Wenjing Zhang Xuejiao Lei Zhaoxiang Liu Meijuan An Bikun Yang Kaikai Zhao Kai Wang Shiguo Lian ELM 34 7 0 14 Jun 2024
Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs Zhao Xu Fan Liu Hao Liu AAML 40 7 0 13 Jun 2024
Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Models Sarah Ball Frauke Kreuter Nina Rimsky 29 13 0 13 Jun 2024
JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models Delong Ran Jinyuan Liu Yichen Gong Jingyi Zheng Xinlei He Tianshuo Cong Anyu Wang ELM 42 10 0 13 Jun 2024
Security of AI Agents Yifeng He Ethan Wang Yuyang Rong Zifei Cheng Hao Chen LLMAG 34 7 0 12 Jun 2024
Legend: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets Duanyu Feng Bowen Qin Chen Huang Youcheng Huang Zheng-Wei Zhang Wenqiang Lei 44 2 0 12 Jun 2024
Unique Security and Privacy Threats of Large Language Model: A Comprehensive Survey Shang Wang Tianqing Zhu Bo Liu Ming Ding Xu Guo Dayong Ye Wanlei Zhou Philip S. Yu PILM 62 17 0 12 Jun 2024
Understanding Visual Concepts Across Models Brandon Trabucco Max Gurinas Kyle Doherty Ruslan Salakhutdinov VLM 35 0 0 11 Jun 2024
Survey for Landing Generative AI in Social and E-commerce Recsys -- the Industry Perspectives Da Xu Danqing Zhang Guangyu Yang Bo Yang Shuyuan Xu Lingling Zheng Cindy Liang 32 2 0 10 Jun 2024
Unveiling the Safety of GPT-4o: An Empirical Study using Jailbreak Attacks Zonghao Ying Aishan Liu Xianglong Liu Dacheng Tao 54 16 0 10 Jun 2024
Language Models Resist Alignment Jiaming Ji Kaile Wang Tianyi Qiu Boyuan Chen Jiayi Zhou Changye Li Hantao Lou Yaodong Yang 42 1 0 10 Jun 2024
Chain-of-Scrutiny: Detecting Backdoor Attacks for Large Language Models Xi Li Yusen Zhang Renze Lou Chen Wu Jiaqi Wang LRM AAML 37 11 0 10 Jun 2024
Safety Alignment Should Be Made More Than Just a Few Tokens Deep Xiangyu Qi Ashwinee Panda Kaifeng Lyu Xiao Ma Subhrajit Roy Ahmad Beirami Prateek Mittal Peter Henderson 39 72 0 10 Jun 2024
How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States Zhenhong Zhou Haiyang Yu Xinghua Zhang Rongwu Xu Fei Huang Yongbin Li 24 26 0 09 Jun 2024
Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents Avital Shafran R. Schuster Vitaly Shmatikov 44 27 0 09 Jun 2024
Deconstructing The Ethics of Large Language Models from Long-standing Issues to New-emerging Dilemmas Chengyuan Deng Yiqun Duan Xin Jin Heng Chang Yijun Tian ... Kuofeng Gao Sihong He Jun Zhuang Lu Cheng Haohan Wang AILaw 38 16 0 08 Jun 2024
SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner Xunguang Wang Daoyuan Wu Zhenlan Ji Zongjie Li Pingchuan Ma Shuai Wang Yingjiu Li Yang Liu Ning Liu Juergen Rahmel AAML 71 8 0 08 Jun 2024
Compositional Curvature Bounds for Deep Neural Networks Taha Entesari Sina Sharifi Mahyar Fazlyab AAML 34 0 0 07 Jun 2024
Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs Fan Liu Zhao Xu Hao Liu AAML 43 10 0 07 Jun 2024
The Price of Implicit Bias in Adversarially Robust Generalization Nikolaos Tsilivis Natalie Frank Nathan Srebro Julia Kempe 40 3 0 07 Jun 2024
PaCE: Parsimonious Concept Engineering for Large Language Models Jinqi Luo Tianjiao Ding Kwan Ho Ryan Chan D. Thaker Aditya Chattopadhyay Chris Callison-Burch René Vidal CVBM 35 7 0 06 Jun 2024
Improving Alignment and Robustness with Circuit Breakers Andy Zou Long Phan Justin Wang Derek Duenas Maxwell Lin Maksym Andriushchenko Rowan Wang Zico Kolter Matt Fredrikson Dan Hendrycks AAML 36 71 0 06 Jun 2024
Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt Zonghao Ying Aishan Liu Tianyuan Zhang Zhengmin Yu Siyuan Liang Xianglong Liu Dacheng Tao AAML 33 26 0 06 Jun 2024