Digger: Detecting Copyright Content Mis-usage in Large Language Model
Training

Digger: Detecting Copyright Content Mis-usage in Large Language Model Training

1 January 2024

Kailong Wang

Yang Liu

Haoyu Wang

Papers citing "Digger: Detecting Copyright Content Mis-usage in Large Language Model Training"

17 / 17 papers shown

Title
A Survey on Unlearnable Data Jiahao Li Yiqiang Chen Yunbing Xing Yang Gu Xiangyuan Lan AAML 58 0 0 30 Mar 2025
SUV: Scalable Large Language Model Copyright Compliance with Regularized Selective Unlearning Tianyang Xu Xiaoze Liu Feijie Wu Xiaoqian Wang Jing Gao MU 56 0 0 29 Mar 2025
Evaluating book summaries from internal knowledge in Large Language Models: a cross-model and semantic consistency approach Javier Coronado-Blázquez HILM ELM 72 0 0 27 Mar 2025
SoK: Dataset Copyright Auditing in Machine Learning Systems L. Du Xuanru Zhou M. Chen Chusong Zhang Zhou Su Peng Cheng Jiming Chen Zhikun Zhang MLAU 21 3 0 22 Oct 2024
Catastrophic Failure of LLM Unlearning via Quantization Zhiwei Zhang Fali Wang Xiaomin Li Zongyu Wu Xianfeng Tang Hui Liu Qi He Wenpeng Yin Suhang Wang MU 34 5 0 21 Oct 2024
CAP: Detecting Unauthorized Data Usage in Generative Models via Prompt Generation Daniela Gallo Angelica Liguori E. Ritacco Luca Caviglione Fabrizio Durante Giuseppe Manco 19 0 0 08 Oct 2024
Nob-MIAs: Non-biased Membership Inference Attacks Assessment on Large Language Models with Ex-Post Dataset Construction Cédric Eichler Nathan Champeil Nicolas Anciaux Alexandra Bensamoun Héber H. Arcolezi José Maria De Fuentes 40 4 0 12 Aug 2024
GlitchProber: Advancing Effective Detection and Mitigation of Glitch Tokens in Large Language Models Zhibo Zhang Wuxia Bai Yuxi Li M. Meng K. Wang Ling Shi Li Li Jun Wang Haoyu Wang 24 4 0 09 Aug 2024
SHIELD: Evaluation and Defense Strategies for Copyright Compliance in LLM Text Generation Xiaoze Liu Ting Sun Tianyang Xu Feijie Wu Cunxiang Wang Xiaoqian Wang Jing Gao AAML DeLMO AILaw 48 16 0 18 Jun 2024
Towards Transparency: Exploring LLM Trainings Datasets through Visual Topic Modeling and Semantic Frame Charles de Dampierre Andrei Mogoutov Nicolas Baumard 42 1 0 03 Jun 2024
Uncertain Boundaries: Multidisciplinary Approaches to Copyright Issues in Generative AI Jocelyn Dzuong Zichong Wang Wenbin Zhang 19 9 0 31 Mar 2024
Threats, Attacks, and Defenses in Machine Unlearning: A Survey Ziyao Liu Huanyi Ye Chen Chen Yongsen Zheng K. Lam AAML MU 35 28 0 20 Mar 2024
On the Challenges and Opportunities in Generative AI Laura Manduchi Kushagra Pandey Robert Bamler Ryan Cotterell Sina Daubener ... F. Wenzel Frank Wood Stephan Mandt Vincent Fortuin Vincent Fortuin 56 17 0 28 Feb 2024
PentestGPT: An LLM-empowered Automatic Penetration Testing Tool Gelei Deng Yi Liu Víctor Mayoral-Vilches Peng Liu Yuekang Li Yuan Xu Tianwei Zhang Yang Liu M. Pinzger Stefan Rass LLMAG 20 82 0 13 Aug 2023
Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4 Kent K. Chang Mackenzie Cramer Sandeep Soni David Bamman RALM 143 111 0 28 Apr 2023
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 290 1,814 0 14 Dec 2020
Language Models as Knowledge Bases? Fabio Petroni Tim Rocktaschel Patrick Lewis A. Bakhtin Yuxiang Wu Alexander H. Miller Sebastian Riedel KELM AI4MH 415 2,586 0 03 Sep 2019