You Know What I'm Saying: Jailbreak Attack via Implicit Reference

4 October 2024

Lingrui Mei

Ruibin Yuan

Wei Xue

Yike Guo

Papers citing "You Know What I'm Saying: Jailbreak Attack via Implicit Reference"

2 / 2 papers shown

Title
RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking Yifan Jiang Kriti Aggarwal Tanmay Laud Kashif Munir Jay Pujara Subhabrata Mukherjee AAML 36 10 0 26 Sep 2024
PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach Zhihao Lin Wei Ma Mingyi Zhou Yanjie Zhao Haoyu Wang Yang Liu Jun Wang Li Li AAML 30 5 0 21 Sep 2024