Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit
Clues

Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit Clues

14 February 2024

Yang Liu

Papers citing "Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit Clues"

8 / 8 papers shown

Title
Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs Haoming Yang Ke Ma X. Jia Yingfei Sun Qianqian Xu Q. Huang AAML 43 0 0 03 May 2025
EmoAgent: Assessing and Safeguarding Human-AI Interaction for Mental Health Safety Jiahao Qiu Yinghui He Xinzhe Juan Y. Wang Y. Liu Zixin Yao Yue Wu Xun Jiang L. Yang Mengdi Wang AI4MH 60 0 0 13 Apr 2025
Be a Multitude to Itself: A Prompt Evolution Framework for Red Teaming Rui Li Peiyi Wang Jingyuan Ma Di Zhang Lei Sha Zhifang Sui LLMAG 39 0 0 22 Feb 2025
When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search Xuan Chen Yuzhou Nie Wenbo Guo Xiangyu Zhang 98 9 0 28 Jan 2025
SATA: A Paradigm for LLM Jailbreak via Simple Assistive Task Linkage Xiaoning Dong Wenbo Hu Wei Xu Tianxing He 67 0 0 19 Dec 2024
SQL Injection Jailbreak: A Structural Disaster of Large Language Models Jiawei Zhao Kejiang Chen W. Zhang Nenghai Yu AAML 36 0 0 03 Nov 2024
SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner Xunguang Wang Daoyuan Wu Zhenlan Ji Zongjie Li Pingchuan Ma Shuai Wang Yingjiu Li Yang Liu Ning Liu Juergen Rahmel AAML 48 6 0 08 Jun 2024
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts Jiahao Yu Xingwei Lin Zheng Yu Xinyu Xing SILM 110 292 0 19 Sep 2023