Do Language Models Plagiarize?

15 March 2022

Papers citing "Do Language Models Plagiarize?"

50 / 54 papers shown

Title
ParaPO: Aligning Language Models to Reduce Verbatim Reproduction of Pre-training Data Tong Chen Faeze Brahman Jiacheng Liu Niloofar Mireshghallah Weijia Shi Pang Wei Koh Luke Zettlemoyer Hannaneh Hajishirzi 36 0 0 20 Apr 2025
Towards Label-Only Membership Inference Attack against Pre-trained Large Language Models Yu He Boheng Li L. Liu Zhongjie Ba Wei Dong Yiming Li Z. Qin Kui Ren C. L. P. Chen MIALM 69 0 0 26 Feb 2025
MCP-Solver: Integrating Language Models with Constraint Programming Systems Stefan Szeider 33 0 0 31 Dec 2024
On Active Privacy Auditing in Supervised Fine-tuning for White-Box Language Models Qian Sun Hanpeng Wu Xi Sheryl Zhang 36 0 0 11 Nov 2024
Online Detecting LLM-Generated Texts via Sequential Hypothesis Testing by Betting Can Chen Jun-Kun Wang DeLMO 35 0 0 29 Oct 2024
Undesirable Memorization in Large Language Models: A Survey Ali Satvaty Suzan Verberne Fatih Turkmen ELM PILM 69 7 0 03 Oct 2024
A Certified Robust Watermark For Large Language Models Xianheng Feng Jian-wei Liu Kui Ren Chun Chen AAML WaLM 41 0 0 29 Sep 2024
Predicting and analyzing memorization within fine-tuned Large Language Models Jérémie Dentan Davide Buscaldi A. Shabou Sonia Vanier 35 0 0 27 Sep 2024
Trustworthiness in Retrieval-Augmented Generation Systems: A Survey Yujia Zhou Yan Liu Xiaoxi Li Jiajie Jin Hongjin Qian Zheng Liu Chaozhuo Li Zhicheng Dou Tsung-Yi Ho Philip S. Yu 3DV RALM 50 26 0 16 Sep 2024
Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs Abhimanyu Hans Yuxin Wen Neel Jain John Kirchenbauer Hamid Kazemi ... Siddharth Singh Gowthami Somepalli Jonas Geiping A. Bhatele Tom Goldstein 31 30 0 14 Jun 2024
Newswire: A Large-Scale Structured Database of a Century of Historical News Emily Silcock Abhishek Arora Luca DÁmico-Wong Melissa Dell AI4TS GNN 37 3 0 13 Jun 2024
Improving Logits-based Detector without Logits from Black-box LLMs Cong Zeng Shengkun Tang Xianjun Yang Yuanzhou Chen Yiyou Sun zhiqiang xu Yao Li Haifeng Chen Wei Cheng Dongkuan Xu DeLMO 55 1 0 07 Jun 2024
Causal Estimation of Memorisation Profiles Pietro Lesci Clara Meister Thomas Hofmann Andreas Vlachos Tiago Pimentel 43 5 0 06 Jun 2024
Reconstructing training data from document understanding models Jérémie Dentan Arnaud Paran A. Shabou AAML SyDa 34 1 0 05 Jun 2024
Privacy-Aware Visual Language Models Laurens Samson Nimrod Barazani S. Ghebreab Yukiyasu Asano PILM VLM 37 1 0 27 May 2024
ReMoDetect: Reward Models Recognize Aligned LLM's Generations Hyunseok Lee Jihoon Tack Jinwoo Shin DeLMO 31 0 0 27 May 2024
U Can't Gen This? A Survey of Intellectual Property Protection Methods for Data in Generative AI Tanja Sarcevic Alicja Karlowicz Rudolf Mayer Ricardo A. Baeza-Yates Andreas Rauber 40 5 0 22 Apr 2024
A Design Space for Intelligent and Interactive Writing Assistants Mina Lee Katy Ilonka Gero John Joon Young Chung S. Buckingham Shum Vipul Raheja ... Joonsuk Park Roy Pea Eugenia H. Rho Shannon Zejiang Shen Pao Siangliulue 29 82 0 21 Mar 2024
Adaptive Ensembles of Fine-Tuned Transformers for LLM-Generated Text Detection Zhixin Lai Xuesheng Zhang Suiyao Chen DeLMO 33 30 0 20 Mar 2024
Will GPT-4 Run DOOM? Adrian de Wynter LM&Ro MLLM 33 5 0 08 Mar 2024
On the Societal Impact of Open Foundation Models Sayash Kapoor Rishi Bommasani Kevin Klyman Shayne Longpre Ashwin Ramaswami ... Victor Storchan Daniel Zhang Daniel E. Ho Percy Liang Arvind Narayanan 26 54 0 27 Feb 2024
What Generative Artificial Intelligence Means for Terminological Definitions Antonio San Martín 24 1 0 25 Feb 2024
Copyright Protection in Generative AI: A Technical Perspective Jie Ren Han Xu Pengfei He Yingqian Cui Shenglai Zeng ... Hongzhi Wen Jiayuan Ding Hui Liu Yi Chang Jiliang Tang DeLMO 16 30 0 04 Feb 2024
EraseDiff: Erasing Data Influence in Diffusion Models Jing Wu Trung Le Munawar Hayat Mehrtash Harandi DiffM 64 14 0 11 Jan 2024
Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems Tianyu Cui Yanling Wang Chuanpu Fu Yong Xiao Sijia Li ... Junwu Xiong Xinyu Kong Zujie Wen Ke Xu Qi Li 55 56 0 11 Jan 2024
SoK: Memorization in General-Purpose Large Language Models Valentin Hartmann Anshuman Suri Vincent Bindschaedler David E. Evans Shruti Tople Robert West KELM LLMAG 16 20 0 24 Oct 2023
A Survey on LLM-Generated Text Detection: Necessity, Methods, and Future Directions Junchao Wu Shu Yang Runzhe Zhan Yulin Yuan Derek F. Wong Lidia S. Chao DeLMO 19 22 0 23 Oct 2023
Large Language Model Unlearning Yuanshun Yao Xiaojun Xu Yang Liu MU 19 109 0 14 Oct 2023
Exploring Memorization in Fine-tuned Language Models Shenglai Zeng Yaxin Li Jie Ren Yiding Liu Han Xu Pengfei He Yue Xing Shuaiqiang Wang Jiliang Tang Dawei Yin PILM 27 23 0 10 Oct 2023
GPT-who: An Information Density-based Machine-Generated Text Detector Saranya Venkatraman Adaku Uchendu Dongwon Lee DeLMO 24 33 0 09 Oct 2023
Fast-DetectGPT: Efficient Zero-Shot Detection of Machine-Generated Text via Conditional Probability Curvature Guangsheng Bao Yanbin Zhao Zhiyang Teng Linyi Yang Yue Zhang 13 129 0 08 Oct 2023
"I'd Like to Have an Argument, Please": Argumentative Reasoning in Large Language Models Sizhe Wei Yifan Lu LRM 30 4 0 29 Sep 2023
TOPFORMER: Topology-Aware Authorship Attribution of Deepfake Texts with Diverse Writing Styles Adaku Uchendu Thai Le Dongwon Lee DeLMO 24 3 0 22 Sep 2023
Citation: A Key to Building Responsible and Accountable Large Language Models Jie Huang Kevin Chen-Chuan Chang HILM 38 16 0 05 Jul 2023
Understanding and Mitigating Copying in Diffusion Models Gowthami Somepalli Vasu Singla Micah Goldblum Jonas Geiping Tom Goldstein DiffM 16 125 0 31 May 2023
Training Data Extraction From Pre-trained Language Models: A Survey Shotaro Ishihara 24 46 0 25 May 2023
An Evaluation on Large Language Model Outputs: Discourse and Memorization Adrian de Wynter Xun Wang Alex Sokolov Qilong Gu Si-Qing Chen ELM 56 31 0 17 Apr 2023
Does Human Collaboration Enhance the Accuracy of Identifying LLM-Generated Deepfake Texts? Adaku Uchendu Jooyoung Lee Hua Shen Thai Le Ting-Hao 'Kenneth' Huang Dongwon Lee DeLMO 33 31 0 03 Apr 2023
Foundation Models and Fair Use Peter Henderson Xuechen Li Dan Jurafsky Tatsunori Hashimoto Mark A. Lemley Percy Liang 17 119 0 28 Mar 2023
Language Model Behavior: A Comprehensive Survey Tyler A. Chang Benjamin Bergen VLM LRM LM&MA 27 102 0 20 Mar 2023
On Provable Copyright Protection for Generative Models Nikhil Vyas Sham Kakade Boaz Barak 10 87 0 21 Feb 2023
Analyzing Leakage of Personally Identifiable Information in Language Models Nils Lukas A. Salem Robert Sim Shruti Tople Lukas Wutschitz Santiago Zanella Béguelin PILM 19 211 0 01 Feb 2023
The Infinite Index: Information Retrieval on Generative Text-To-Image Models Niklas Deckers Maik Frobe Johannes Kiesel G. Pandolfo Christopher Schröder Benno Stein Martin Potthast DiffM 29 16 0 14 Dec 2022
Noise-Robust De-Duplication at Scale Emily Silcock Luca DÁmico-Wong Jinglin Yang Melissa Dell SyDa 18 20 0 09 Oct 2022
Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset Peter Henderson M. Krass Lucia Zheng Neel Guha Christopher D. Manning Dan Jurafsky Daniel E. Ho AILaw ELM 129 96 0 01 Jul 2022
Reward Reports for Reinforcement Learning T. Gilbert Nathan Lambert Sarah Dean Tom Zick Aaron J. Snoswell 27 33 0 22 Apr 2022
Counterfactual Memorization in Neural Language Models Chiyuan Zhang Daphne Ippolito Katherine Lee Matthew Jagielski Florian Tramèr Nicholas Carlini 19 128 0 24 Dec 2021
How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN R. Thomas McCoy P. Smolensky Tal Linzen Jianfeng Gao Asli Celikyilmaz SyDa 17 119 0 18 Nov 2021
How BPE Affects Memorization in Transformers Eugene Kharitonov Marco Baroni Dieuwke Hupkes 161 32 0 06 Oct 2021
Artificial Text Detection via Examining the Topology of Attention Maps Laida Kushnareva D. Cherniavskii Vladislav Mikhailov Ekaterina Artemova S. Barannikov A. Bernstein Irina Piontkovskaya D. Piontkovski Evgeny Burnaev 31 49 0 10 Sep 2021