Demystifying Verbatim Memorization in Large Language Models

Demystifying Verbatim Memorization in Large Language Models

25 July 2024

Diyi Yang

Christopher Potts

Papers citing "Demystifying Verbatim Memorization in Large Language Models"

8 / 8 papers shown

Title
Not All Data Are Unlearned Equally Aravind Krishnan Siva Reddy Marius Mosbach MU 39 0 0 07 Apr 2025
How Much Can We Forget about Data Contamination? Sebastian Bordt Suraj Srinivas Valentyn Boreiko U. V. Luxburg 36 1 0 04 Oct 2024
Position: LLM Unlearning Benchmarks are Weak Measures of Progress Pratiksha Thaker Shengyuan Hu Neil Kale Yash Maurya Zhiwei Steven Wu Virginia Smith MU 39 10 0 03 Oct 2024
Undesirable Memorization in Large Language Models: A Survey Ali Satvaty Suzan Verberne Fatih Turkmen ELM PILM 60 7 0 03 Oct 2024
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs Aly M. Kassem Omar Mahmoud Niloofar Mireshghallah Hyunwoo J. Kim Yulia Tsvetkov Yejin Choi Sherif Saad Santu Rana 41 18 0 05 Mar 2024
Data Portraits: Recording Foundation Model Training Data Marc Marone Benjamin Van Durme 129 30 0 06 Mar 2023
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 236 1,508 0 31 Dec 2020
When is Memorization of Irrelevant Training Data Necessary for High-Accuracy Learning? Gavin Brown Mark Bun Vitaly Feldman Adam D. Smith Kunal Talwar 236 80 0 11 Dec 2020