Securing Large Language Models: Threats, Vulnerabilities and Responsible
Practices

Securing Large Language Models: Threats, Vulnerabilities and Responsible Practices

19 March 2024

Papers citing "Securing Large Language Models: Threats, Vulnerabilities and Responsible Practices"

16 / 16 papers shown

Title
LLM Security: Vulnerabilities, Attacks, Defenses, and Countermeasures Francisco Aguilera-Martínez Fernando Berzal PILM 45 0 0 02 May 2025
Real-World Gaps in AI Governance Research Ilan Strauss Isobel Moure Tim O'Reilly Sruly Rosenblat 52 0 0 30 Apr 2025
CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities Yuxuan Zhu Antony Kellermann Dylan Bowman Philip Li Akul Gupta ... Avi Dhir Sudhit Rao Kaicheng Yu Twm Stone Daniel Kang LLMAG ELM 59 1 0 21 Mar 2025
Calibration and Correctness of Language Models for Code Claudio Spiess David Gros Kunal Suresh Pai Michael Pradel Md Rafiqul Islam Rabin Amin Alipour Susmit Jha Prem Devanbu Toufique Ahmed 51 19 0 03 Feb 2024
Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models Hanlin Zhang Benjamin L. Edelman Danilo Francati Daniele Venturi G. Ateniese Boaz Barak WaLM 129 53 0 07 Nov 2023
Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks Erfan Shayegani Md Abdullah Al Mamun Yu Fu Pedram Zaree Yue Dong Nael B. Abu-Ghazaleh AAML 135 139 0 16 Oct 2023
Watermarking Text Generated by Black-Box Language Models Xi Yang Kejiang Chen Weiming Zhang Chang-rui Liu Yuang Qi Jie Zhang Han Fang Neng H. Yu WaLM 83 53 0 14 May 2023
Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models Shuai Zhao Jinming Wen Anh Tuan Luu J. Zhao Jie Fu SILM 51 88 0 02 May 2023
Poisoning Language Models During Instruction Tuning Alexander Wan Eric Wallace Sheng Shen Dan Klein SILM 90 124 0 01 May 2023
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 282 3,163 0 21 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Fast Model Editing at Scale E. Mitchell Charles Lin Antoine Bosselut Chelsea Finn Christopher D. Manning KELM 217 254 0 21 Oct 2021
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks Xiao Liu Kaixuan Ji Yicheng Fu Weng Lam Tam Zhengxiao Du Zhilin Yang Jie Tang VLM 228 780 0 14 Oct 2021
Performance Evaluation of Adversarial Attacks: Discrepancies and Solutions Jing Wu Mingyi Zhou Ce Zhu Yipeng Liu Mehrtash Harandi Li Li AAML 21 7 0 22 Apr 2021
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 261 1,386 0 14 Dec 2020
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 273 1,561 0 18 Sep 2019