TrojFM: Resource-efficient Backdoor Attacks against Very Large
Foundation Models

TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models

27 May 2024

Michael J. De Lucia

Nathaniel D. Bastian

Papers citing "TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models"

13 / 13 papers shown

Title
Frontier AI's Impact on the Cybersecurity Landscape Wenbo Guo Yujin Potter Tianneng Shi Zhun Wang Andy Zhang Dawn Song 50 1 0 07 Apr 2025
When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search Xuan Chen Yuzhou Nie Wenbo Guo Xiangyu Zhang 107 9 0 28 Jan 2025
BadEdit: Backdooring large language models by model editing Yanzhou Li Tianlin Li Kangjie Chen Jian Zhang Shangqing Liu Wenhan Wang Tianwei Zhang Yang Liu SyDa AAML KELM 49 47 0 20 Mar 2024
UOR: Universal Backdoor Attacks on Pre-trained Language Models Wei Du Peixuan Li Bo-wen Li Haodong Zhao Gongshen Liu AAML 37 7 0 16 May 2023
Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models Shuai Zhao Jinming Wen Anh Tuan Luu J. Zhao Jie Fu SILM 57 88 0 02 May 2023
Poisoning Language Models During Instruction Tuning Alexander Wan Eric Wallace Sheng Shen Dan Klein SILM 90 124 0 01 May 2023
ChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox Generative Model Trigger Jiazhao Li Yijin Yang Zhuofeng Wu V. Vydiswaran Chaowei Xiao SILM 41 41 0 27 Apr 2023
Data Poisoning Attacks Against Multimodal Encoders Ziqing Yang Xinlei He Zheng Li Michael Backes Mathias Humbert Pascal Berrang Yang Zhang AAML 104 43 0 30 Sep 2022
Mind the Style of Text! Adversarial and Backdoor Attacks Based on Text Style Transfer Fanchao Qi Yangyi Chen Xurui Zhang Mukai Li Zhiyuan Liu Maosong Sun AAML SILM 77 171 0 14 Oct 2021
BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning Lun Wang Zaynah Javed Xian Wu Wenbo Guo Xinyu Xing D. Song AAML 71 64 0 02 May 2021
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 267 1,798 0 14 Dec 2020
Mitigating backdoor attacks in LSTM-based Text Classification Systems by Backdoor Keyword Identification Chuanshuai Chen Jiazhu Dai SILM 48 126 0 11 Jul 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 223 4,424 0 23 Jan 2020