MasterKey: Automated Jailbreak Across Multiple Large Language Model Chatbots

16 July 2023

Yi Liu

Kailong Wang

Haoyu Wang

Yang Liu

Papers citing "MasterKey: Automated Jailbreak Across Multiple Large Language Model Chatbots"

50 / 78 papers shown

Title
Attack and defense techniques in large language models: A survey and new perspectives Zhiyu Liao Kang Chen Yuanguo Lin Kangkang Li Yunxuan Liu Hefeng Chen Xingwang Huang Yuanhui Yu AAML 54 0 0 02 May 2025
NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models Yi Zhou Wenpeng Xing Dezhang Kong Changting Lin Meng Han MU KELM LLMSV 42 0 0 29 Apr 2025
Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary Yakai Li Jiekang Hu Weiduan Sang Luping Ma Jing Xie Weijuan Zhang Aimin Yu Shijie Zhao Qingjia Huang Qihang Zhou AAML 45 0 0 28 Apr 2025
Geneshift: Impact of different scenario shift on Jailbreaking LLM Tianyi Wu Zhiwei Xue Yue Liu Jiaheng Zhang Bryan Hooi See-Kiong Ng 28 0 0 10 Apr 2025
Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms Shuoming Zhang Jiacheng Zhao Ruiyuan Xu Xiaobing Feng Huimin Cui AAML 34 0 0 31 Mar 2025
TAIJI: Textual Anchoring for Immunizing Jailbreak Images in Vision Language Models Xiangyu Yin Yi Qi Jinwei Hu Zhen Chen Yi Dong Xingyu Zhao Xiaowei Huang Wenjie Ruan 45 0 0 13 Mar 2025
Dialogue Injection Attack: Jailbreaking LLMs through Context Manipulation Wenlong Meng Fan Zhang Wendao Yao Zhenyuan Guo Y. Li Chengkun Wei Wenzhi Chen AAML 36 1 0 11 Mar 2025
Jailbreaking Generative AI: Empowering Novices to Conduct Phishing Attacks Rina Mishra Gaurav Varshney Shreya Singh 36 0 0 03 Mar 2025
Topic-FlipRAG: Topic-Orientated Adversarial Opinion Manipulation Attacks to Retrieval-Augmented Generation Models Y. Gong Zhuo Chen Miaokun Chen Fengchang Yu Wei-Tsung Lu XiaoFeng Wang Xiaozhong Liu J. Liu AAML SILM 56 0 0 03 Feb 2025
Security Attacks on LLM-based Code Completion Tools Wen Cheng Ke Sun Xinyu Zhang Wei Wang SILM AAML ELM 48 0 0 03 Jan 2025
Jailbreaking? One Step Is Enough! Weixiong Zheng Peijian Zeng Y. Li Hongyan Wu Nankai Lin J. Chen Aimin Yang Y. Zhou AAML 76 0 0 17 Dec 2024
SpearBot: Leveraging Large Language Models in a Generative-Critique Framework for Spear-Phishing Email Generation Qinglin Qi Yun Luo Yijia Xu Wenbo Guo Yong Fang AAML 81 1 0 15 Dec 2024
Time-Reversal Provides Unsupervised Feedback to LLMs Yerram Varun Rahul Madhavan Sravanti Addepalli A. Suggala Karthikeyan Shanmugam Prateek Jain LRM SyDa 64 0 0 03 Dec 2024
RAG-Thief: Scalable Extraction of Private Data from Retrieval-Augmented Generation Applications with Agent-based Attacks Changyue Jiang Xudong Pan Geng Hong Chenfu Bao Min Yang SILM 69 7 0 21 Nov 2024
New Emerged Security and Privacy of Pre-trained Model: a Survey and Outlook Meng Yang Tianqing Zhu Chi Liu Wanlei Zhou Shui Yu Philip S. Yu AAML ELM PILM 48 1 0 12 Nov 2024
Diversity Helps Jailbreak Large Language Models Weiliang Zhao Daniel Ben-Levi Wei Hao Junfeng Yang Chengzhi Mao AAML 53 0 0 06 Nov 2024
Desert Camels and Oil Sheikhs: Arab-Centric Red Teaming of Frontier LLMs Muhammed Saeed Elgizouli Mohamed Mukhtar Mohamed Shaina Raza Muhammad Abdul-Mageed Shady Shehata 33 0 0 31 Oct 2024
BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks Yunhan Zhao Xiang Zheng Lin Luo Yige Li Xingjun Ma Yu-Gang Jiang VLM AAML 50 3 0 28 Oct 2024
Vulnerability of LLMs to Vertically Aligned Text Manipulations Zhecheng Li Y. Wang Bryan Hooi Yujun Cai Zhen Xiong Nanyun Peng Kai-Wei Chang 47 1 0 26 Oct 2024
Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models Xiao-Li Li Zhuhong Li Qiongxiu Li Bingze Lee Jinghao Cui Xiaolin Hu AAML 19 2 0 20 Oct 2024
Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of Large Language Models Cody Clop Yannick Teglia AAML SILM RALM 36 2 0 18 Oct 2024
Multi-round jailbreak attack on large language models Yihua Zhou Xiaochuan Shi AAML 11 0 0 15 Oct 2024
Cognitive Overload Attack:Prompt Injection for Long Context Bibek Upadhayay Vahid Behzadan Amin Karbasi AAML 25 2 0 15 Oct 2024
Are You Human? An Adversarial Benchmark to Expose LLMs Gilad Gressel Rahul Pankajakshan Yisroel Mirsky DeLMO 38 0 0 12 Oct 2024
AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation Zijun Wang Haoqin Tu J. Mei Bingchen Zhao Y. Wang Cihang Xie 21 5 0 11 Oct 2024
Recent advancements in LLM Red-Teaming: Techniques, Defenses, and Ethical Considerations Tarun Raheja Nilay Pochhi AAML 46 1 0 09 Oct 2024
You Know What I'm Saying: Jailbreak Attack via Implicit Reference Tianyu Wu Lingrui Mei Ruibin Yuan Lujun Li Wei Xue Yike Guo 33 1 0 04 Oct 2024
FlipAttack: Jailbreak LLMs via Flipping Yue Liu Xiaoxin He Miao Xiong Jinlan Fu Shumin Deng Bryan Hooi AAML 23 12 0 02 Oct 2024
PROMPTFUZZ: Harnessing Fuzzing Techniques for Robust Testing of Prompt Injection in LLMs Jiahao Yu Yangguang Shao Hanwen Miao Junzheng Shi SILM AAML 60 3 0 23 Sep 2024
PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach Zhihao Lin Wei Ma Mingyi Zhou Yanjie Zhao Haoyu Wang Yang Liu Jun Wang Li Li AAML 30 5 0 21 Sep 2024
Jailbreaking Large Language Models with Symbolic Mathematics Emet Bethany Mazal Bethany Juan Arturo Nolazco Flores S. Jha Peyman Najafirad AAML 16 3 0 17 Sep 2024
Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks Md Zarif Hossain Ahmed Imteaj AAML VLM 38 3 0 11 Sep 2024
AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs Lijia Lv Weigang Zhang Xuehai Tang Jie Wen Feng Liu Jizhong Han Songlin Hu AAML 24 2 0 11 Sep 2024
Recent Advances in Attack and Defense Approaches of Large Language Models Jing Cui Yishi Xu Zhewei Huang Shuchang Zhou Jianbin Jiao Junge Zhang PILM AAML 47 1 0 05 Sep 2024
Efficient Detection of Toxic Prompts in Large Language Models Yi Liu Junzhe Yu Huijia Sun Ling Shi Gelei Deng Yuqi Chen Yang Liu 18 4 0 21 Aug 2024
Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Carrier Articles Zhilong Wang Haizhou Wang Nanqing Luo Lan Zhang Xiaoyan Sun Yebo Cao Peng Liu 23 0 0 20 Aug 2024
$$\textit{MMJ-Bench}$: A Comprehensive Study on Jailbreak Attacks and Defenses for Vision Language Models$ $\textit{MMJ-Bench}$ : A Comprehensive Study on Jailbreak Attacks and Defenses for Vision Language Models Fenghua Weng Yue Xu Chengyan Fu Wenjie Wang AAML 35 1 0 16 Aug 2024
GlitchProber: Advancing Effective Detection and Mitigation of Glitch Tokens in Large Language Models Zhibo Zhang Wuxia Bai Yuxi Li M. Meng K. Wang Ling Shi Li Li Jun Wang Haoyu Wang 22 4 0 09 Aug 2024
Multi-Turn Context Jailbreak Attack on Large Language Models From First Principles Xiongtao Sun Deyue Zhang Dongdong Yang Quanchen Zou Hui Li AAML 19 11 0 08 Aug 2024
Defending Jailbreak Attack in VLMs via Cross-modality Information Detector Yue Xu Xiuyuan Qi Zhan Qin Wenjie Wang AAML 38 6 0 31 Jul 2024
LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models Shi Lin Rongchang Li Xun Wang Changting Lin Xun Wang Wenpeng Xing Meng Han Meng Han 47 3 0 23 Jul 2024
Enhancing the Capability and Robustness of Large Language Models through Reinforcement Learning-Driven Query Refinement Zisu Huang Xiaohua Wang Feiran Zhang Zhibo Xu Cenyuan Zhang Xiaoqing Zheng Xuanjing Huang AAML LRM 21 3 0 01 Jul 2024
Poisoned LangChain: Jailbreak LLMs by LangChain Ziqiu Wang Jun Liu Shengkai Zhang Yang Yang 18 7 0 26 Jun 2024
SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance Caishuang Huang Wanxu Zhao Rui Zheng Huijie Lv Shihan Dou ... Junjie Ye Yuming Yang Tao Gui Qi Zhang Xuanjing Huang LLMSV AAML 34 7 0 26 Jun 2024
Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing Han Jiang Xiaoyuan Yi Zhihua Wei Shu Wang Xing Xie Xing Xie ALM ELM 50 5 0 20 Jun 2024
[WIP] Jailbreak Paradox: The Achilles' Heel of LLMs Abhinav Rao Monojit Choudhury Somak Aditya 14 0 0 18 Jun 2024
SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models Somnath Banerjee Soham Tripathy Sayan Layek Shanu Kumar Animesh Mukherjee Rima Hazra 25 1 0 18 Jun 2024
JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models Delong Ran Jinyuan Liu Yichen Gong Jingyi Zheng Xinlei He Tianshuo Cong Anyu Wang ELM 42 10 0 13 Jun 2024
Chain-of-Scrutiny: Detecting Backdoor Attacks for Large Language Models Xi Li Yusen Zhang Renze Lou Chen Wu Jiaqi Wang LRM AAML 29 11 0 10 Jun 2024
Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents Avital Shafran R. Schuster Vitaly Shmatikov 37 27 0 09 Jun 2024