A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly

4 December 2023

Papers citing "A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly"

46 / 46 papers shown

Title
Unveiling the Landscape of LLM Deployment in the Wild: An Empirical Study Xinyi Hou Jiahao Han Yanjie Zhao Haoyu Wang 25 0 0 05 May 2025
A Survey on Privacy Risks and Protection in Large Language Models Kang Chen Xiuze Zhou Yuanguo Lin Shibo Feng Li Shen Pengcheng Wu AILaw PILM 46 0 0 04 May 2025
Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs Haoming Yang Ke Ma X. Jia Yingfei Sun Qianqian Xu Q. Huang AAML 43 0 0 03 May 2025
XBreaking: Explainable Artificial Intelligence for Jailbreaking LLMs Marco Arazzi Vignesh Kumar Kembu Antonino Nocera V. P. 71 0 0 30 Apr 2025
Exploring the Role of Large Language Models in Cybersecurity: A Systematic Survey Shuang Tian Tao Zhang J. Liu Jiacheng Wang Xuangou Wu ... Ruichen Zhang W. Zhang Zhenhui Yuan Shiwen Mao Dong In Kim 48 0 0 22 Apr 2025
Frontier AI's Impact on the Cybersecurity Landscape Wenbo Guo Yujin Potter Tianneng Shi Zhun Wang Andy Zhang Dawn Song 31 1 0 07 Apr 2025
Why Do Multi-Agent LLM Systems Fail? Mert Cemri Melissa Z. Pan Shuyi Yang Lakshya A Agrawal Bhavya Chopra ... Dan Klein Kannan Ramchandran Matei A. Zaharia Joseph E. Gonzalez Ion Stoica LLMAG Presented at ResearchTrend Connect \| LLMAG on 23 Apr 2025 105 5 0 17 Mar 2025
Do LLMs Consider Security? An Empirical Study on Responses to Programming Questions Amirali Sajadi Binh Le A. Nguyen Kostadin Damevski Preetha Chatterjee 40 2 0 20 Feb 2025
The AI Security Zugzwang Lampis Alevizos 29 0 0 09 Feb 2025
FedTLU: Federated Learning with Targeted Layer Updates Jong-Ik Park Carlee Joe-Wong FedML 71 0 0 28 Jan 2025
Baichuan-Omni-1.5 Technical Report Yadong Li J. Liu Tao Zhang Tao Zhang S. Chen ... Jianhua Xu Haoze Sun Mingan Lin Zenan Zhou Weipeng Chen AuLLM 64 10 0 28 Jan 2025
Personalizing Education through an Adaptive LMS with Integrated LLMs Kyle Spriggs Meng Cheng Lau Kalpdrum Passi AI4Ed 46 0 0 24 Jan 2025
Toward Intelligent and Secure Cloud: Large Language Model Empowered Proactive Defense Yuyang Zhou Guang Cheng Kang Du Zihan Chen Yuyu Zhao 35 0 0 30 Dec 2024
MoPD: Mixture-of-Prompts Distillation for Vision-Language Models Yang Chen Shuai Fu Yu Zhang VLM 27 0 0 26 Dec 2024
Position: A taxonomy for reporting and describing AI security incidents L. Bieringer Kevin Paeth Andreas Wespi Kathrin Grosse Alexandre Alahi Kathrin Grosse 73 0 0 19 Dec 2024
SoK: Decentralized AI (DeAI) Zhipeng Wang Rui Sun Elizabeth Lui Vatsal Shah Xihan Xiong Jiahao Sun Davide Crapis William Knottenbelt 79 1 0 26 Nov 2024
Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies L. Wang Sheng Chen Linnan Jiang Shu Pan Runze Cai Sen Yang Fei Yang 32 3 0 24 Oct 2024
Bridging Today and the Future of Humanity: AI Safety in 2024 and Beyond Shanshan Han 55 1 0 09 Oct 2024
Can Watermarked LLMs be Identified by Users via Crafted Prompts? Aiwei Liu Sheng Guan Y. Liu L. Pan Yifei Zhang Liancheng Fang Lijie Wen Philip S. Yu Xuming Hu WaLM 55 2 0 04 Oct 2024
Undesirable Memorization in Large Language Models: A Survey Ali Satvaty Suzan Verberne Fatih Turkmen ELM PILM 53 7 0 03 Oct 2024
Exploring Gen-AI applications in building research and industry: A review Hanlong Wan Jian Zhang Yan Chen Weili Xu Fan Feng AI4CE 30 0 0 01 Oct 2024
A Practical Review of Mechanistic Interpretability for Transformer-Based Language Models Daking Rai Yilun Zhou Shi Feng Abulhair Saparov Ziyu Yao 49 18 0 02 Jul 2024
Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task Hassan Ali Philipp Allgeuer Stefan Wermter 24 1 0 12 Apr 2024
Large Language Models for Blockchain Security: A Systematic Literature Review Zheyuan He Zihao Li Sen Yang Ao Qiao Xiaosong Zhang Xiapu Luo Ting Chen Ting Chen PILM 42 14 0 21 Mar 2024
Exploring the Potential of Large Language Models for Improving Digital Forensic Investigation Efficiency Akila Wickramasekara F. Breitinger Mark Scanlon 29 7 0 29 Feb 2024
Soft Prompt Threats: Attacking Safety Alignment and Unlearning in Open-Source LLMs through the Embedding Space Leo Schwinn David Dobre Sophie Xhonneux Gauthier Gidel Stephan Gunnemann AAML 23 36 0 14 Feb 2024
Towards Urban General Intelligence: A Review and Outlook of Urban Foundation Models Weijiao Zhang Jindong Han Zhao Xu Hang Ni Hao Liu Hui Xiong Hui Xiong AI4CE 77 14 0 30 Jan 2024
Probing Explicit and Implicit Gender Bias through LLM Conditional Text Generation Xiangjue Dong Yibo Wang Philip S. Yu James Caverlee 16 25 0 01 Nov 2023
White-box Compiler Fuzzing Empowered by Large Language Models Chenyuan Yang Yinlin Deng Runyu Lu Jiayi Yao Jiawei Liu Reyhaneh Jabbarvand Lingming Zhang 35 27 0 24 Oct 2023
PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models Hongwei Yao Jian Lou Zhan Qin SILM AAML 49 16 0 19 Oct 2023
Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks Erfan Shayegani Md Abdullah Al Mamun Yu Fu Pedram Zaree Yue Dong Nael B. Abu-Ghazaleh AAML 135 139 0 16 Oct 2023
On the Safety of Open-Sourced Large Language Models: Does Alignment Really Prevent Them From Being Misused? Hangfan Zhang Zhimeng Guo Huaisheng Zhu Bochuan Cao Lu Lin Jinyuan Jia Jinghui Chen Di Wu 47 20 0 02 Oct 2023
WASA: WAtermark-based Source Attribution for Large Language Model-Generated Data Jingtan Wang Xinyang Lu Zitong Zhao Zhongxiang Dai Chuan-Sheng Foo See-Kiong Ng K. H. Low WaLM 37 9 0 01 Oct 2023
LLM Platform Security: Applying a Systematic Evaluation Framework to OpenAI's ChatGPT Plugins Umar Iqbal Tadayoshi Kohno Franziska Roesner ELM SILM 51 41 0 19 Sep 2023
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts Jiahao Yu Xingwei Lin Zheng Yu Xinyu Xing SILM 110 292 0 19 Sep 2023
Bias of AI-Generated Content: An Examination of News Produced by Large Language Models Xiao Fang Shangkun Che Minjia Mao Hongzhe Zhang Ming Zhao Xiaohang Zhao 25 17 0 18 Sep 2023
Large Language Models are Built-in Autoregressive Search Engines Noah Ziems W. Yu Zhihan Zhang Meng-Long Jiang KELM 49 26 0 16 May 2023
Poisoning Language Models During Instruction Tuning Alexander Wan Eric Wallace Sheng Shen Dan Klein SILM 90 124 0 01 May 2023
ChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox Generative Model Trigger Jiazhao Li Yijin Yang Zhuofeng Wu V. Vydiswaran Chaowei Xiao SILM 33 27 0 27 Apr 2023
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond Jingfeng Yang Hongye Jin Ruixiang Tang Xiaotian Han Qizhang Feng Haoming Jiang Bing Yin Xia Hu LM&MA 123 593 0 26 Apr 2023
Text Revealer: Private Text Reconstruction via Model Inversion Attacks against Transformers Ruisi Zhang Seira Hidano F. Koushanfar SILM 55 26 0 21 Sep 2022
You Don't Know My Favorite Color: Preventing Dialogue Representations from Revealing Speakers' Private Personas Haoran Li Yangqiu Song Lixin Fan 51 17 0 26 Apr 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Text Detoxification using Large Pre-trained Neural Models David Dale Anton Voronov Daryna Dementieva V. Logacheva Olga Kozlova Nikita Semenov Alexander Panchenko 31 71 0 18 Sep 2021
Deduplicating Training Data Makes Language Models Better Katherine Lee Daphne Ippolito A. Nystrom Chiyuan Zhang Douglas Eck Chris Callison-Burch Nicholas Carlini SyDa 232 447 0 14 Jul 2021
FreeLB: Enhanced Adversarial Training for Natural Language Understanding Chen Zhu Yu Cheng Zhe Gan S. Sun Tom Goldstein Jingjing Liu AAML 200 430 0 25 Sep 2019