Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs

Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs

5 March 2024

Niloofar Mireshghallah

Yejin Choi

Papers citing "Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs"

14 / 14 papers shown

Title
LLM Security: Vulnerabilities, Attacks, Defenses, and Countermeasures Francisco Aguilera-Martínez Fernando Berzal PILM 45 0 0 02 May 2025
Merger-as-a-Stealer: Stealing Targeted PII from Aligned LLMs with Model Merging Lin Lu Zhigang Zuo Ziji Sheng Pan Zhou MoMe 48 0 0 22 Feb 2025
Undesirable Memorization in Large Language Models: A Survey Ali Satvaty Suzan Verberne Fatih Turkmen ELM PILM 60 7 0 03 Oct 2024
Manipulation Facing Threats: Evaluating Physical Vulnerabilities in End-to-End Vision Language Action Models Hao Cheng Erjia Xiao Chengyuan Yu Zhao Yao Jiahang Cao ... Jiaxu Wang Mengshu Sun Kaidi Xu Jindong Gu Renjing Xu AAML 24 1 0 20 Sep 2024
Demystifying Verbatim Memorization in Large Language Models Jing Huang Diyi Yang Christopher Potts ELM PILM MU 29 1 0 25 Jul 2024
CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation Tong Chen Akari Asai Niloofar Mireshghallah Sewon Min James Grimmelmann Yejin Choi Hannaneh Hajishirzi Luke Zettlemoyer Pang Wei Koh 35 17 0 09 Jul 2024
Towards More Realistic Extraction Attacks: An Adversarial Perspective Yash More Prakhar Ganesh G. Farnadi AAML 57 6 0 02 Jul 2024
Uncovering Latent Memories: Assessing Data Leakage and Memorization Patterns in Frontier AI Models Sunny Duan Mikail Khona Abhiram Iyer Rylan Schaeffer Ila R Fiete 30 5 0 20 Jun 2024
Measuring memorization in RLHF for code completion Aneesh Pappu Billy Porter Ilia Shumailov Jamie Hayes 21 0 0 17 Jun 2024
Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing Zhangchen Xu Fengqing Jiang Luyao Niu Yuntian Deng Radha Poovendran Yejin Choi Bill Yuchen Lin SyDa 16 110 0 12 Jun 2024
OLMo: Accelerating the Science of Language Models Dirk Groeneveld Iz Beltagy Pete Walsh Akshita Bhagia Rodney Michael Kinney ... Jesse Dodge Kyle Lo Luca Soldaini Noah A. Smith Hanna Hajishirzi OSLM 124 349 0 01 Feb 2024
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 236 1,508 0 31 Dec 2020
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 264 1,798 0 14 Dec 2020