Title
Safeguard-by-Development: A Privacy-Enhanced Development Paradigm for Multi-Agent Collaboration Systems Jian Cui Zichuan Li Luyi Xing Xiaojing Liao 14 0 0 07 May 2025
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong X. Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Yu Jiang ALM ELM 84 0 0 26 Apr 2025
RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models Bang An Shiyue Zhang Mark Dredze 54 0 0 25 Apr 2025
X-Guard: Multilingual Guard Agent for Content Moderation Bibek Upadhayay Vahid Behzadan Ph.D 19 1 0 11 Apr 2025
Towards Trustworthy GUI Agents: A Survey Yucheng Shi Wenhao Yu Wenlin Yao Wenhu Chen Ninghao Liu 37 2 0 30 Mar 2025
ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning Z. Chen Mintong Kang Bo-wen Li AAML 34 2 0 26 Mar 2025
Reinforcing Clinical Decision Support through Multi-Agent Systems and Ethical AI Governance Ying-Jung Chen Chi-Sheng Chen Ahmad Albarqawi 26 0 0 25 Mar 2025
AgentSpec: Customizable Runtime Enforcement for Safe and Reliable LLM Agents Haoyu Wang Christopher M. Poskitt Jun Sun 32 0 0 24 Mar 2025
A Practical Memory Injection Attack against LLM Agents Shen Dong Shaocheng Xu Pengfei He Y. Li Jiliang Tang Tianming Liu Hui Liu Zhen Xiang LLMAG AAML 41 2 0 05 Mar 2025
GuardReasoner: Towards Reasoning-based LLM Safeguards Yue Liu Hongcheng Gao Shengfang Zhai Jun-Xiong Xia Tianyi Wu Zhiwei Xue Y. Chen Kenji Kawaguchi Jiaheng Zhang Bryan Hooi AI4TS LRM 106 13 0 30 Jan 2025
The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection in LLM Agents Feiran Jia Tong Wu Xin Qin Anna Squicciarini LLMAG AAML 78 4 0 21 Dec 2024
ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents Ido Levy Ben wiesel Sami Marreed Alon Oved Avi Yaeli Segev Shlomov LLMAG 16 6 0 09 Oct 2024
Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI Ambrish Rawat Stefan Schoepf Giulio Zizzo Giandomenico Cornacchia Muhammad Zaid Hameed ... Elizabeth M. Daly Mark Purcell P. Sattigeri Pin-Yu Chen Kush R. Varshney AAML 34 6 0 23 Sep 2024
LLM Agents for Psychology: A Study on Gamified Assessments Qisen Yang Zekun Wang Honghui Chen Shenzhi Wang Yifan Pu Xin Gao Wenhao Huang Shiji Song Gao Huang LLMAG 28 7 0 19 Feb 2024
Personalized Autonomous Driving with Large Language Models: Field Experiments Can Cui Zichong Yang Yupeng Zhou Yunsheng Ma Juanwu Lu Lingxi Li Yaobin Chen Jitesh Panchal Ziran Wang 43 8 0 14 Dec 2023
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 208 2,413 0 06 Oct 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 313 8,261 0 28 Jan 2022