JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models

JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models

13 June 2024

Papers citing "JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models"

11 / 11 papers shown

Title
JailBreakV-28K: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks Weidi Luo Siyuan Ma Xiaogeng Liu Xiaoyu Guo Chaowei Xiao AAML 58 17 0 03 Apr 2024
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models Weikang Zhou Xiao Wang Limao Xiong Han Xia Yingshuang Gu ... Lijun Li Jing Shao Tao Gui Qi Zhang Xuanjing Huang 60 29 0 18 Mar 2024
Semantic Mirror Jailbreak: Genetic Algorithm Based Jailbreak Prompts Against Open-source LLMs Xiaoxia Li Siyuan Liang Jiyi Zhang Hansheng Fang Aishan Liu Ee-Chien Chang 51 23 0 21 Feb 2024
Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit Clues Zhiyuan Chang Mingyang Li Yi Liu Junjie Wang Qing Wang Yang Liu 81 37 0 14 Feb 2024
SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding Zhangchen Xu Fengqing Jiang Luyao Niu Jinyuan Jia Bill Yuchen Lin Radha Poovendran AAML 129 82 0 14 Feb 2024
COLD-Attack: Jailbreaking LLMs with Stealthiness and Controllability Xing-ming Guo Fangxu Yu Huan Zhang Lianhui Qin Bin Hu AAML 109 69 0 13 Feb 2024
Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models Yongshuo Zong Ondrej Bohdal Tingyang Yu Yongxin Yang Timothy M. Hospedales VLM MLLM 49 56 0 03 Feb 2024
Pruning for Protection: Increasing Jailbreak Resistance in Aligned LLMs Without Fine-Tuning Adib Hasan Ileana Rugina Alex Wang AAML 41 22 0 19 Jan 2024
FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts Yichen Gong Delong Ran Jinyuan Liu Conglei Wang Tianshuo Cong Anyu Wang Sisi Duan Xiaoyun Wang MLLM 127 116 0 09 Nov 2023
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts Jiahao Yu Xingwei Lin Zheng Yu Xinyu Xing SILM 110 292 0 19 Sep 2023
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 313 8,261 0 28 Jan 2022