Adversaries Can Misuse Combinations of Safe Models

20 June 2024

Papers citing "Adversaries Can Misuse Combinations of Safe Models"

4 / 4 papers shown

Title
Open Challenges in Multi-Agent Security: Towards Secure Systems of Interacting AI Agents Christian Schroeder de Witt AAML AI4CE 46 0 0 04 May 2025
Superintelligence Strategy: Expert Version Dan Hendrycks Eric Schmidt Alexandr Wang 57 1 0 07 Mar 2025
Feedback Loops With Language Models Drive In-Context Reward Hacking Alexander Pan Erik Jones Meena Jagadeesan Jacob Steinhardt KELM 42 25 0 09 Feb 2024
Generative Agents: Interactive Simulacra of Human Behavior J. Park Joseph C. O'Brien Carrie J. Cai Meredith Ringel Morris Percy Liang Michael S. Bernstein LM&Ro AI4CE 206 1,701 0 07 Apr 2023