Privacy in Large Language Models: Attacks, Defenses and Future Directions

16 October 2023

Papers citing "Privacy in Large Language Models: Attacks, Defenses and Future Directions"

31 / 31 papers shown

Title
Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning Hao Sun M. Schaar 65 14 0 28 Jan 2025
Privacy in Fine-tuning Large Language Models: Attacks, Defenses, and Future Directions Hao Du Shang Liu Lele Zheng Yang Cao Atsuyoshi Nakamura Lei Chen AAML 93 3 0 21 Dec 2024
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts Jiahao Yu Xingwei Lin Zheng Yu Xinyu Xing SILM 110 292 0 19 Sep 2023
UOR: Universal Backdoor Attacks on Pre-trained Language Models Wei Du Peixuan Li Bo-wen Li Haodong Zhao Gongshen Liu AAML 29 8 0 16 May 2023
Sentence Embedding Leaks More Information than You Expect: Generative Embedding Inversion Attack to Recover the Whole Sentence Haoran Li Mingshi Xu Yangqiu Song 51 26 0 04 May 2023
Backdoor Learning on Sequence to Sequence Models Lichang Chen Minhao Cheng Heng-Chiao Huang SILM 44 14 0 03 May 2023
Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models Shuai Zhao Jinming Wen Anh Tuan Luu J. Zhao Jie Fu SILM 51 88 0 02 May 2023
Poisoning Language Models During Instruction Tuning Alexander Wan Eric Wallace Sheng Shen Dan Klein SILM 90 124 0 01 May 2023
ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal, Causal, and Discourse Relations Chunkit Chan Cheng Jiayang Weiqi Wang Yuxin Jiang Tianqing Fang Xin Liu Yangqiu Song LRM 66 47 0 28 Apr 2023
ChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox Generative Model Trigger Jiazhao Li Yijin Yang Zhuofeng Wu V. Vydiswaran Chaowei Xiao SILM 35 41 0 27 Apr 2023
Does Prompt-Tuning Language Model Ensure Privacy? Shangyu Xie Wei Dai Esha Ghosh Sambuddha Roy Dan Schwartz Kim Laine SILM 35 4 0 07 Apr 2023
Stealing the Decoding Algorithms of Language Models A. Naseh Kalpesh Krishna Mohit Iyyer Amir Houmansadr MLAU 47 20 0 08 Mar 2023
Text Revealer: Private Text Reconstruction via Model Inversion Attacks against Transformers Ruisi Zhang Seira Hidano F. Koushanfar SILM 55 26 0 21 Sep 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 2,712 0 24 May 2022
Phrase-level Textual Adversarial Attack with Label Preservation Yibin Lei Yu Cao Dianqi Li Tianyi Zhou Meng Fang Mykola Pechenizkiy AAML 27 24 0 22 May 2022
You Don't Know My Favorite Color: Preventing Dialogue Representations from Revealing Speakers' Private Personas Haoran Li Yangqiu Song Lixin Fan 56 17 0 26 Apr 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Decepticons: Corrupted Transformers Breach Privacy in Federated Learning for Language Models Liam H. Fowl Jonas Geiping Steven Reich Yuxin Wen Wojtek Czaja Micah Goldblum Tom Goldstein FedML 65 55 0 29 Jan 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 313 8,261 0 28 Jan 2022
Multitask Prompted Training Enables Zero-Shot Task Generalization Victor Sanh Albert Webson Colin Raffel Stephen H. Bach Lintang Sutawika ... T. Bers Stella Biderman Leo Gao Thomas Wolf Alexander M. Rush LRM 203 1,651 0 15 Oct 2021
Mind the Style of Text! Adversarial and Backdoor Attacks Based on Text Style Transfer Fanchao Qi Yangyi Chen Xurui Zhang Mukai Li Zhiyuan Liu Maosong Sun AAML SILM 75 171 0 14 Oct 2021
Differentially Private Fine-tuning of Language Models Da Yu Saurabh Naik A. Backurs Sivakanth Gopi Huseyin A. Inan ... Y. Lee Andre Manoel Lukas Wutschitz Sergey Yekhanin Huishuai Zhang 128 258 0 13 Oct 2021
InvBERT: Reconstructing Text from Contextualized Word Embeddings by inverting the BERT pipeline Emily M. Bender Timnit Gebru Eric Wallace 38 8 0 21 Sep 2021
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 275 3,784 0 18 Apr 2021
Competency Problems: On Finding and Removing Artifacts in Language Data Matt Gardner William Merrill Jesse Dodge Matthew E. Peters Alexis Ross Sameer Singh Noah A. Smith 143 106 0 17 Apr 2021
Gradient-based Adversarial Attacks against Text Transformers Chuan Guo Alexandre Sablayrolles Hervé Jégou Douwe Kiela SILM 93 162 0 15 Apr 2021
Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP Timo Schick Sahana Udupa Hinrich Schütze 251 374 0 28 Feb 2021
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 261 1,386 0 14 Dec 2020
Mitigating backdoor attacks in LSTM-based Text Classification Systems by Backdoor Keyword Identification Chuanshuai Chen Jiazhu Dai SILM 43 126 0 11 Jul 2020
Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference Timo Schick Hinrich Schütze 248 1,382 0 21 Jan 2020
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 273 1,561 0 18 Sep 2019