Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models

15 December 2023

Papers citing "Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models"

8 / 8 papers shown

Title
Understanding the Effects of RLHF on the Quality and Detectability of LLM-Generated Texts Beining Xu Arkaitz Zubiaga DeLMO 66 0 0 23 Mar 2025
Understanding the Effects of Human-written Paraphrases in LLM-generated Text Detection Hiu Ting Lau Arkaitz Zubiaga DeLMO 30 1 0 06 Nov 2024
Safeguarding Large Language Models: A Survey Yi Dong Ronghui Mu Yanghao Zhang Siqi Sun Tianle Zhang ... Yi Qi Jinwei Hu Jie Meng Saddek Bensalem Xiaowei Huang OffRL KELM AILaw 35 17 0 03 Jun 2024
TrustAI at SemEval-2024 Task 8: A Comprehensive Analysis of Multi-domain Machine Generated Text Detection Techniques Ashok Urlana Aditya Saibewar B. Garlapati Charaka Vinayak Kumar Ajeet Kumar Singh S. Chalamala DeLMO 24 1 0 25 Mar 2024
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Gradient-based Adversarial Attacks against Text Transformers Chuan Guo Alexandre Sablayrolles Hervé Jégou Douwe Kiela SILM 98 225 0 15 Apr 2021
Generating Natural Language Adversarial Examples M. Alzantot Yash Sharma Ahmed Elgohary Bo-Jhang Ho Mani B. Srivastava Kai-Wei Chang AAML 233 909 0 21 Apr 2018
Adversarial Example Generation with Syntactically Controlled Paraphrase Networks Mohit Iyyer John Wieting Kevin Gimpel Luke Zettlemoyer AAML GAN 178 708 0 17 Apr 2018