Turning Generative Models Degenerate: The Power of Data Poisoning Attacks

17 July 2024

Papers citing "Turning Generative Models Degenerate: The Power of Data Poisoning Attacks"

4 / 4 papers shown

Title
Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs Jan Betley Daniel Tan Niels Warncke Anna Sztyber-Betley Xuchan Bao Martín Soto Nathan Labenz Owain Evans AAML 73 8 0 24 Feb 2025
Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models Shuai Zhao Jinming Wen Anh Tuan Luu J. Zhao Jie Fu SILM 54 88 0 02 May 2023
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 278 3,784 0 18 Apr 2021
Text Summarization with Pretrained Encoders Yang Liu Mirella Lapata MILM 245 1,417 0 22 Aug 2019