Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue

27 February 2024

Papers citing "Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue"

3 / 3 papers shown

Title
OpenDeception: Benchmarking and Investigating AI Deceptive Behaviors via Open-ended Interaction Simulation Yichen Wu Xudong Pan Geng Hong Min Yang LLMAG 27 0 0 18 Apr 2025
Foot-In-The-Door: A Multi-turn Jailbreak for LLMs Zixuan Weng Xiaolong Jin Jinyuan Jia X. Zhang AAML 32 0 0 27 Feb 2025
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022