Multi-Turn Context Jailbreak Attack on Large Language Models From First
Principles

Multi-Turn Context Jailbreak Attack on Large Language Models From First Principles

8 August 2024

Papers citing "Multi-Turn Context Jailbreak Attack on Large Language Models From First Principles"

10 / 10 papers shown

Title
Safety in Large Reasoning Models: A Survey Cheng Wang Y. Liu B. Li Duzhen Zhang Z. Li Junfeng Fang LRM 82 1 0 24 Apr 2025
Bayesian Optimization of Robustness Measures Using Randomized GP-UCB-based Algorithms under Input Uncertainty Yu Inatsu 41 0 0 04 Apr 2025
SafeArena: Evaluating the Safety of Autonomous Web Agents Ada Defne Tur Nicholas Meade Xing Han Lù Alejandra Zambrano Arkil Patel Esin Durmus Spandana Gella Karolina Stañczak Siva Reddy LLMAG ELM 85 2 0 06 Mar 2025
Foot-In-The-Door: A Multi-turn Jailbreak for LLMs Zixuan Weng Xiaolong Jin Jinyuan Jia X. Zhang AAML 69 0 0 27 Feb 2025
Jailbreaking to Jailbreak Jeremy Kritz Vaughn Robinson Robert Vacareanu Bijan Varjavand Michael Choi Bobby Gogov Scale Red Team Summer Yue Willow Primack Zifan Wang 127 0 0 09 Feb 2025
Recent advancements in LLM Red-Teaming: Techniques, Defenses, and Ethical Considerations Tarun Raheja Nilay Pochhi AAML 46 1 0 09 Oct 2024
Well, that escalated quickly: The Single-Turn Crescendo Attack (STCA) Alan Aqrawi Arian Abbasi AAML 31 0 0 04 Sep 2024
LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet Nathaniel Li Ziwen Han Ian Steneker Willow Primack Riley Goodside Hugh Zhang Zifan Wang Cristina Menghini Summer Yue AAML MU 44 39 0 27 Aug 2024
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools Team GLM : Aohan Zeng Bin Xu Bowen Wang ... Zhaoyu Wang Zhen Yang Zhengxiao Du Zhenyu Hou Zihan Wang ALM 62 473 0 18 Jun 2024
Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue Zhenhong Zhou Jiuyang Xiang Haopeng Chen Quan Liu Zherui Li Sen Su 32 19 0 27 Feb 2024