Bergeron: Combating Adversarial Attacks through a Conscience-Based
Alignment Framework

Bergeron: Combating Adversarial Attacks through a Conscience-Based Alignment Framework

16 November 2023

Abraham Sanders

Bingsheng Yao

T. Strzalkowski

Papers citing "Bergeron: Combating Adversarial Attacks through a Conscience-Based Alignment Framework"

5 / 5 papers shown

Title
Single-pass Detection of Jailbreaking Input in Large Language Models Leyla Naz Candogan Yongtao Wu Elias Abad Rocamora Grigorios G. Chrysos V. Cevher AAML 45 0 0 24 Feb 2025
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense Yang Ouyang Hengrui Gu Shuhang Lin Wenyue Hua Jie Peng B. Kailkhura Tianlong Chen Kaixiong Zhou Kaixiong Zhou AAML 31 1 0 05 Jan 2025
RePD: Defending Jailbreak Attack through a Retrieval-based Prompt Decomposition Process Peiran Wang Xiaogeng Liu Chaowei Xiao AAML 21 3 0 11 Oct 2024
Recent Advances in Attack and Defense Approaches of Large Language Models Jing Cui Yishi Xu Zhewei Huang Shuchang Zhou Jianbin Jiao Junge Zhang PILM AAML 47 1 0 05 Sep 2024
Moral Foundations of Large Language Models Marwa Abdulhai Gregory Serapio-Garcia Clément Crepy Daria Valter John Canny Natasha Jaques LRM 57 22 0 23 Oct 2023