Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense

23 March 2023

Papers citing "Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense"

49 / 49 papers shown

Title
Revealing Weaknesses in Text Watermarking Through Self-Information Rewrite Attacks Yixin Cheng Hongcheng Guo Yangming Li Leonid Sigal AAML WaLM 57 0 0 08 May 2025
An End-to-End Model For Logits Based Large Language Models Watermarking Kahim Wong Jicheng Zhou Jiantao Zhou Yain-Whar Si WaLM 30 2 0 05 May 2025
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation Vaidehi Patil Yi-Lin Sung Peter Hase Jie Peng Tianlong Chen Mohit Bansal AAML MU 79 3 0 01 May 2025
Unified Attacks to Large Language Model Watermarks: Spoofing and Scrubbing in Unauthorized Knowledge Distillation Xin Yi Shunfan Zhengc Linlin Wanga Xiaoling Wang Liang He Liang He AAML 89 0 0 24 Apr 2025
Defending LLM Watermarking Against Spoofing Attacks with Contrastive Representation Learning Li An Yujian Liu Y. Liu Yang Zhang Yuheng Bu Shiyu Chang AAML 70 0 0 09 Apr 2025
TH-Bench: Evaluating Evading Attacks via Humanizing AI Text on Machine-Generated Text Detectors Jingyi Zheng Junfeng Wang Zhen Sun Wenhan Dong Yule Liu Xinlei He AAML 43 0 0 10 Mar 2025
Unveiling Attractor Cycles in Large Language Models: A Dynamical Systems View of Successive Paraphrasing Zhilin Wang Yafu Li Jianhao Yan Yu Cheng Yue Zhang 65 0 0 24 Feb 2025
Proactive Privacy Amnesia for Large Language Models: Safeguarding PII with Negligible Impact on Model Utility Martin Kuo Jingyang Zhang Jianyi Zhang Minxue Tang Louis DiValentin ... William Chen Amin Hass Tianlong Chen Y. Chen H. Li MU KELM 37 2 0 24 Feb 2025
Automatic Input Rewriting Improves Translation with Large Language Models Dayeon Ki Marine Carpuat 38 0 0 23 Feb 2025
Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing Shoumik Saha S. Feizi DeLMO 70 0 0 21 Feb 2025
Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Generated Text Detection Guangsheng Bao Yanbin Zhao Juncai He Yue Zhang VLM 92 1 0 20 Feb 2025
Dual Caption Preference Optimization for Diffusion Models Amir Saeidi Yiran Luo Agneet Chatterjee Shamanthak Hegde Bimsara Pathiraja Yezhou Yang Chitta Baral DiffM 51 0 0 09 Feb 2025
Can AI-Generated Text be Reliably Detected? Vinu Sankar Sadasivan Aounon Kumar S. Balasubramanian Wenxiao Wang S. Feizi DeLMO 54 359 0 20 Jan 2025
Beemo: Benchmark of Expert-edited Machine-generated Outputs Ekaterina Artemova Jason Samuel Lucas Saranya Venkatraman Jooyoung Lee Sergei Tilga Adaku Uchendu Vladislav Mikhailov DeLMO MoE 66 4 0 06 Nov 2024
DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios Junchao Wu Runzhe Zhan Derek F. Wong Shu Yang Xinyi Yang Yulin Yuan Lidia S. Chao DeLMO 43 1 0 31 Oct 2024
COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act Philipp Guldimann Alexander Spiridonov Robin Staab Nikola Jovanović Mark Vero ... Mislav Balunović Nikola Konstantinov Pavol Bielik Petar Tsankov Martin Vechev ELM 45 4 0 10 Oct 2024
Training-free LLM-generated Text Detection by Mining Token Probability Sequences Yihuai Xu Yongwei Wang Yifei Bi Huangsen Cao Zhouhan Lin Yu Zhao Fei Wu DeLMO 16 0 0 08 Oct 2024
A Watermark for Black-Box Language Models Dara Bahri John Wieting WaLM 64 1 0 02 Oct 2024
TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization Methods Gabriel Loiseau Damien Sileo Damien Riquet Maxime Meyer Marc Tommasi 38 0 0 31 Jul 2024
Watermark Smoothing Attacks against Language Models Hongyan Chang Hamed Hassani Reza Shokri WaLM 63 2 0 19 Jul 2024
PlagBench: Exploring the Duality of Large Language Models in Plagiarism Generation and Detection Jooyoung Lee Toshini Agrawal Adaku Uchendu Thai V. Le Jinghui Chen Dongwon Lee 21 1 0 24 Jun 2024
Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods Kathleen C. Fraser Hillary Dawkins S. Kiritchenko DeLMO 71 7 0 21 Jun 2024
REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space Tomer Ashuach Martin Tutek Yonatan Belinkov KELM MU 58 4 0 13 Jun 2024
Evaluating Durability: Benchmark Insights into Multimodal Watermarking Jielin Qiu William Jongwon Han Xuandong Zhao Shangbang Long Christos Faloutsos Lei Li 51 1 0 06 Jun 2024
Large Language Model Watermark Stealing With Mixed Integer Programming Zhaoxi Zhang Xiaomei Zhang Yanjun Zhang Leo Yu Zhang Chao Chen Shengshan Hu Asif Gill Shirui Pan AAML 33 4 0 30 May 2024
Securing the Future of GenAI: Policy and Technology Mihai Christodorescu Craven S. Feizi Neil Zhenqiang Gong Mia Hoffmann ... Jessica Newman Emelia Probasco Yanjun Qi Khawaja Shams Turek SILM 26 3 0 21 May 2024
On the Challenges and Opportunities in Generative AI Laura Manduchi Kushagra Pandey Robert Bamler Ryan Cotterell Sina Daubener ... F. Wenzel Frank Wood Stephan Mandt Vincent Fortuin Vincent Fortuin 56 17 0 28 Feb 2024
Machine-Generated Text Localization Zhongping Zhang Wenda Qin Bryan A. Plummer DeLMO 26 4 0 19 Feb 2024
Excuse me, sir? Your language model is leaking (information) Or Zamir WaLM 13 5 0 18 Jan 2024
Authorship Obfuscation in Multilingual Machine-Generated Text Detection Dominik Macko Robert Moro Adaku Uchendu Ivan Srba Jason Samuel Lucas Michiharu Yamashita Nafis Irtiza Tripto Dongwon Lee Jakub Simko M. Bieliková DeLMO 29 17 0 15 Jan 2024
Optimizing watermarks for large language models Bram Wouters WaLM 24 3 0 28 Dec 2023
A Robust Semantics-based Watermark for Large Language Model against Paraphrasing Jie Ren Han Xu Yiding Liu Yingqian Cui Shuaiqiang Wang Dawei Yin Jiliang Tang OffRL 19 42 0 15 Nov 2023
Publicly-Detectable Watermarking for Language Models Jaiden Fairoze Sanjam Garg Somesh Jha Saeed Mahloujifar Mohammad Mahmoody Mingyuan Wang WaLM 139 45 0 27 Oct 2023
Embarrassingly Simple Text Watermarks Ryoma Sato Yuki Takezawa Han Bao Kenta Niwa Makoto Yamada WaLM 19 14 0 13 Oct 2023
Necessary and Sufficient Watermark for Large Language Models Yuki Takezawa Ryoma Sato Han Bao Kenta Niwa Makoto Yamada WaLM 45 7 0 02 Oct 2023
Advancing Beyond Identification: Multi-bit Watermark for Large Language Models Kiyoon Yoo Wonhyuk Ahn Nojun Kwak WaLM 13 16 0 01 Aug 2023
Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect ChatGPT-Generated Text Lingyi Yang Feng Jiang Haizhou Li DeLMO 22 23 0 21 Jul 2023
Detecting LLM-Generated Text in Computing Education: A Comparative Study for ChatGPT Cases Michael Sheinman Orenstrakh Oscar Karnalim C. Suárez Michael Liut DeLMO 16 56 0 10 Jul 2023
RADAR: Robust AI-Text Detection via Adversarial Learning Xiaomeng Hu Pin-Yu Chen Tsung-Yi Ho DeLMO 16 107 0 07 Jul 2023
DetectLLM: Leveraging Log Rank Information for Zero-Shot Detection of Machine-Generated Text Jinyan Su Terry Yue Zhuo Di Wang Preslav Nakov DeLMO 22 121 0 23 May 2023
Smaller Language Models are Better Black-box Machine-Generated Text Detectors Niloofar Mireshghallah Justus Mattern Sicun Gao Reza Shokri Taylor Berg-Kirkpatrick DeLMO 11 47 0 17 May 2023
Machine-Made Media: Monitoring the Mobilization of Machine-Generated Articles on Misinformation and Mainstream News Websites Hans W. A. Hanley Zakir Durumeric DeLMO 14 29 0 16 May 2023
Paraphrase Identification with Deep Learning: A Review of Datasets and Methods Chao Zhou Cheng Qiu Daniel Ernesto Acuna 24 25 0 13 Dec 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 303 11,881 0 04 Mar 2022
Towards Document-Level Paraphrase Generation with Sentence Rewriting and Reordering Zhe-nan Lin Yitao Cai Xiaojun Wan 38 13 0 15 Sep 2021
BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models Nandan Thakur Nils Reimers Andreas Rucklé Abhishek Srivastava Iryna Gurevych VLM 229 961 0 17 Apr 2021
Generating Syntactically Controlled Paraphrases without Using Annotated Parallel Pairs Kuan-Hao Huang Kai-Wei Chang 142 68 0 26 Jan 2021
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 267 1,808 0 14 Dec 2020
Adversarial Example Generation with Syntactically Controlled Paraphrase Networks Mohit Iyyer John Wieting Kevin Gimpel Luke Zettlemoyer AAML GAN 185 711 0 17 Apr 2018