Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings

19 June 2024

Yue Huang

Dongping Chen

Lichao Sun

Philip S. Yu

Xiangliang Zhang

Papers citing "Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings"

1 / 1 papers shown

Title
Poisoning Language Models During Instruction Tuning Alexander Wan Eric Wallace Sheng Shen Dan Klein SILM 90 185 0 01 May 2023