Title
LM-Scout: Analyzing the Security of Language Model Integration in Android Apps Muhammad Ibrahim Gűliz Seray Tuncay Z. Berkay Celik Aravind Machiry Antonio Bianchi 31 0 0 13 May 2025
SecReEvalBench: A Multi-turned Security Resilience Evaluation Benchmark for Large Language Models Huining Cui Wei Liu AAML ELM 28 0 0 12 May 2025
Practical Reasoning Interruption Attacks on Reasoning Large Language Models Yu Cui Cong Zuo SILM AAML LRM 29 0 0 10 May 2025
AgentXploit: End-to-End Redteaming of Black-Box AI Agents Zhun Wang Vincent Siu Zhe Ye Tianneng Shi Yuzhou Nie Xuandong Zhao Chenguang Wang Wenbo Guo Dawn Song LLMAG AAML 36 0 0 09 May 2025
Stealthy LLM-Driven Data Poisoning Attacks Against Embedding-Based Retrieval-Augmented Recommender Systems Fatemeh Nazary Yashar Deldjoo T. D. Noia E. Sciascio AAML SILM 50 0 0 08 May 2025
Red Teaming the Mind of the Machine: A Systematic Evaluation of Prompt Injection and Jailbreak Vulnerabilities in LLMs Chetan Pathade AAML SILM 59 0 0 07 May 2025
LLM Security: Vulnerabilities, Attacks, Defenses, and Countermeasures Francisco Aguilera-Martínez Fernando Berzal PILM 52 0 0 02 May 2025
Attack and defense techniques in large language models: A survey and new perspectives Zhiyu Liao Kang Chen Yuanguo Lin Kangkang Li Yunxuan Liu Hefeng Chen Xingwang Huang Yuanhui Yu AAML 54 0 0 02 May 2025
OET: Optimization-based prompt injection Evaluation Toolkit Jinsheng Pan Xiaogeng Liu Chaowei Xiao AAML 69 0 0 01 May 2025
Hoist with His Own Petard: Inducing Guardrails to Facilitate Denial-of-Service Attacks on Retrieval-Augmented Generation of LLMs Pan Suo Yu-ming Shang San-Chuan Guo Xi Zhang SILM AAML 50 0 0 30 Apr 2025
ACE: A Security Architecture for LLM-Integrated App Systems Evan Li Tushin Mallick Evan Rose William K. Robertson Alina Oprea Cristina Nita-Rotaru 52 0 0 29 Apr 2025
Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction Y. Chen Haoran Li Yuan Sui Y. Liu Yufei He Y. Song Bryan Hooi AAML SILM 63 0 0 29 Apr 2025
MATCHA: Can Multi-Agent Collaboration Build a Trustworthy Conversational Recommender? Zheng Hui Xiaokai Wei Yexi Jiang Kevin Gao Chen Wang Frank Ong Se-eun Yoon Rachit Pareek Michelle Gong LLMAG 59 0 0 26 Apr 2025
Adversarial Attacks on LLM-as-a-Judge Systems: Insights from Prompt Injections Narek Maloyan Dmitry Namiot SILM AAML ELM 77 0 0 25 Apr 2025
Safety in Large Reasoning Models: A Survey Cheng Wang Y. Liu B. Li Duzhen Zhang Z. Li Junfeng Fang Bryan Hooi LRM 142 1 0 24 Apr 2025
WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks Ivan Evtimov Arman Zharmagambetov Aaron Grattafiori Chuan Guo Kamalika Chaudhuri AAML 33 0 0 22 Apr 2025
Manipulating Multimodal Agents via Cross-Modal Prompt Injection Le Wang Zonghao Ying Tianyuan Zhang Siyuan Liang Shengshan Hu Mingchuan Zhang A. Liu Xianglong Liu AAML 33 1 0 19 Apr 2025
Progent: Programmable Privilege Control for LLM Agents Tianneng Shi Jingxuan He Zhun Wang Linyu Wu Hongwei Li Wenbo Guo Dawn Song LLMAG 34 0 0 16 Apr 2025
StruPhantom: Evolutionary Injection Attacks on Black-Box Tabular Agents Powered by Large Language Models Yang Feng Xudong Pan AAML 31 0 0 14 Apr 2025
StealthRank: LLM Ranking Manipulation via Stealthy Prompt Optimization Yiming Tang Yi Fan Chenxiao Yu Tiankai Yang Yue Zhao Xiyang Hu 26 0 0 08 Apr 2025
Frontier AI's Impact on the Cybersecurity Landscape Wenbo Guo Yujin Potter Tianneng Shi Zhun Wang Andy Zhang Dawn Song 52 1 0 07 Apr 2025
The H-Elena Trojan Virus to Infect Model Weights: A Wake-Up Call on the Security Risks of Malicious Fine-Tuning Virilo Tejedor Cristina Zuheros Carlos Peláez-González David Herrera-Poyatos Andrés Herrera-Poyatos F. Herrera 24 0 0 04 Apr 2025
Encrypted Prompt: Securing LLM Applications Against Unauthorized Actions Shih-Han Chan AAML 52 0 0 29 Mar 2025
Efficient but Vulnerable: Benchmarking and Defending LLM Batch Prompting Attack Murong Yue Ziyu Yao SILM AAML 56 0 0 18 Mar 2025
Align in Depth: Defending Jailbreak Attacks via Progressive Answer Detoxification Yingjie Zhang Tong Liu Zhe Zhao Guozhu Meng Kai Chen AAML 51 1 0 14 Mar 2025
Safety Guardrails for LLM-Enabled Robots Zachary Ravichandran Alexander Robey Vijay R. Kumar George Pappas Hamed Hassani 56 2 0 10 Mar 2025
Building Safe GenAI Applications: An End-to-End Overview of Red Teaming for Large Language Models Alberto Purpura Sahil Wadhwa Jesse Zymet Akshay Gupta Andy Luo Melissa Kazemi Rad Swapnil Shinde Mohammad Sorower AAML 161 0 0 03 Mar 2025
UDora: A Unified Red Teaming Framework against LLM Agents by Dynamically Hijacking Their Own Reasoning J. Zhang Shuang Yang B. Li AAML LLMAG 56 0 0 28 Feb 2025
ConfuGuard: Using Metadata to Detect Active and Stealthy Package Confusion Attacks Accurately and at Scale Wenxin Jiang Berk Çakar Mikola Lysenko James C. Davis 31 0 0 27 Feb 2025
Multi-Agent Security Tax: Trading Off Security and Collaboration Capabilities in Multi-Agent Systems Pierre Peigne-Lefebvre Mikolaj Kniejski Filip Sondej Matthieu David J. Hoelscher-Obermaier Christian Schroeder de Witt Esben Kran 51 4 0 26 Feb 2025
On the Robustness of Transformers against Context Hijacking for Linear Classification Tianle Li Chenyang Zhang Xingwu Chen Yuan Cao Difan Zou 67 0 0 24 Feb 2025
Single-pass Detection of Jailbreaking Input in Large Language Models Leyla Naz Candogan Yongtao Wu Elias Abad Rocamora Grigorios G. Chrysos V. Cevher AAML 51 0 0 24 Feb 2025
Can Indirect Prompt Injection Attacks Be Detected and Removed? Yulin Chen Haoran Li Yuan Sui Yufei He Yue Liu Y. Song Bryan Hooi AAML 42 3 0 23 Feb 2025
Control Illusion: The Failure of Instruction Hierarchies in Large Language Models Yilin Geng H. Li Honglin Mu Xudong Han Timothy Baldwin Omri Abend Eduard H. Hovy Lea Frermann 36 2 0 21 Feb 2025
Bridging the Safety Gap: A Guardrail Pipeline for Trustworthy LLM Inferences Shanshan Han Salman Avestimehr Chaoyang He 71 0 0 12 Feb 2025
Adversarial ML Problems Are Getting Harder to Solve and to Evaluate Javier Rando Jie Zhang Nicholas Carlini F. Tramèr AAML ELM 56 3 0 04 Feb 2025
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models Jingwei Yi Yueqi Xie Bin Zhu Emre Kiciman Guangzhong Sun Xing Xie Fangzhao Wu AAML 53 64 0 28 Jan 2025
An Empirically-grounded tool for Automatic Prompt Linting and Repair: A Case Study on Bias, Vulnerability, and Optimization in Developer Prompts Dhia Elhaq Rzig Dhruba Jyoti Paul Kaiser Pister Jordan Henkel Foyzul Hassan 75 0 0 21 Jan 2025
Authenticated Delegation and Authorized AI Agents Tobin South Samuele Marro Thomas Hardjono Robert Mahari Cedric Deslandes Whitney Dazza Greenwood Alan Chan Alex Pentland 44 3 0 17 Jan 2025
FlippedRAG: Black-Box Opinion Manipulation Adversarial Attacks to Retrieval-Augmented Generation Models Zhuo Chen Y. Gong Miaokun Chen Haotan Liu Qikai Cheng Fan Zhang Wei-Tsung Lu Xiaozhong Liu J. Liu XiaoFeng Wang AAML 44 1 0 06 Jan 2025
The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection in LLM Agents Feiran Jia Tong Wu Xin Qin Anna Squicciarini LLMAG AAML 86 4 0 21 Dec 2024
RAG-Thief: Scalable Extraction of Private Data from Retrieval-Augmented Generation Applications with Agent-based Attacks Changyue Jiang Xudong Pan Geng Hong Chenfu Bao Min Yang SILM 72 9 0 21 Nov 2024
Global Challenge for Safe and Secure LLMs Track 1 Xiaojun Jia Yihao Huang Yang Liu Peng Yan Tan Weng Kuan Yau ... Yan Wang Rick Siow Mong Goh Liangli Zhen Yingjie Zhang Zhe Zhao ELM AILaw 69 0 0 21 Nov 2024
New Emerged Security and Privacy of Pre-trained Model: a Survey and Outlook Meng Yang Tianqing Zhu Chi Liu Wanlei Zhou Shui Yu Philip S. Yu AAML ELM PILM 61 1 0 12 Nov 2024
A Survey on Adversarial Machine Learning for Code Data: Realistic Threats, Countermeasures, and Interpretations Yulong Yang Haoran Fan Chenhao Lin Qian Li Zhengyu Zhao Chao Shen Xiaohong Guan AAML 43 0 0 12 Nov 2024
Defense Against Prompt Injection Attack by Leveraging Attack Techniques Yulin Chen Haoran Li Zihao Zheng Y. Song Dekai Wu Bryan Hooi SILM AAML 50 4 0 01 Nov 2024
Attention Tracker: Detecting Prompt Injection Attacks in LLMs Kuo-Han Hung Ching-Yun Ko Ambrish Rawat I-Hsin Chung Winston H. Hsu Pin-Yu Chen 49 7 0 01 Nov 2024
ProTransformer: Robustify Transformers via Plug-and-Play Paradigm Zhichao Hou Weizhi Gao Yuchen Shen Feiyi Wang Xiaorui Liu VLM 28 2 0 30 Oct 2024
FATH: Authentication-based Test-time Defense against Indirect Prompt Injection Attacks Jiongxiao Wang Fangzhou Wu Wendi Li Jinsheng Pan Edward Suh Zhuoqing Mao Muhao Chen Chaowei Xiao AAML 40 6 0 28 Oct 2024
Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection M. Rahman Fan Wu A. Cuzzocrea S. Ahamed AAML 25 3 0 28 Oct 2024