Exposing Privacy Gaps: Membership Inference Attack on Preference Data for LLM Alignment

8 July 2024

Papers citing "Exposing Privacy Gaps: Membership Inference Attack on Preference Data for LLM Alignment"

6 / 6 papers shown

Title
Detecting Training Data of Large Language Models via Expectation Maximization Gyuwan Kim Yang Li Evangelia Spiliopoulou Jie Ma Miguel Ballesteros William Yang Wang MIALM 54 3 2 10 Oct 2024
An overview of domain-specific foundation model: key technologies, applications and challenges Haolong Chen Hanzhi Chen Zijian Zhao Kaifeng Han Guangxu Zhu Yichen Zhao Ying Du Wei Xu Qingjiang Shi ALM VLM 29 4 0 06 Sep 2024
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond Jingfeng Yang Hongye Jin Ruixiang Tang Xiaotian Han Qizhang Feng Haoming Jiang Bing Yin Xia Hu LM&MA 101 351 0 26 Apr 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 270 8,441 0 04 Mar 2022
Unsolved Problems in ML Safety Dan Hendrycks Nicholas Carlini John Schulman Jacob Steinhardt 138 233 0 28 Sep 2021
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 241 1,386 0 14 Dec 2020