Protecting Your LLMs with Information Bottleneck

Protecting Your LLMs with Information Bottleneck

22 April 2024

Linjie Xu

Lei Song

Jiang Bian

Papers citing "Protecting Your LLMs with Information Bottleneck"

5 / 5 papers shown

Title
Foot-In-The-Door: A Multi-turn Jailbreak for LLMs Zixuan Weng Xiaolong Jin Jinyuan Jia X. Zhang AAML 46 0 0 27 Feb 2025
BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks Yunhan Zhao Xiang Zheng Lin Luo Yige Li Xingjun Ma Yu-Gang Jiang VLM AAML 52 3 0 28 Oct 2024
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models Weikang Zhou Xiao Wang Limao Xiong Han Xia Yingshuang Gu ... Lijun Li Jing Shao Tao Gui Qi Zhang Xuanjing Huang 71 29 0 18 Mar 2024
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts Jiahao Yu Xingwei Lin Zheng Yu Xinyu Xing SILM 110 292 0 19 Sep 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 303 11,730 0 04 Mar 2022