v1v2v3v4v5 (latest)

Secret Collusion among AI Agents: Multi-Agent Deception via Steganography

Neural Information Processing Systems (NeurIPS), 2024

12 February 2024

Christian Schroeder de Witt

ArXiv (abs)PDF HTML Github (18132★)

Papers citing "Secret Collusion among AI Agents: Multi-Agent Deception via Steganography"

11 / 11 papers shown

TAMAS: Benchmarking Adversarial Risks in Multi-Agent LLM Systems

Ishan Kavathekar

Hemang Jain

Ameya Rathod

Ponnurangam Kumaraguru

Tanuja Ganu

LLMAG AAML

442

07 Nov 2025

An Economy of AI Agents

Gillian K. Hadfield

Andrew Koh

293

01 Sep 2025

SoK: The Privacy Paradox of Large Language Models: Advancements, Privacy Risks, and MitigationACM Asia Conference on Computer and Communications Security (AsiaCCS), 2025

Yashothara Shanmugarasa

Ming Ding

M. Chamikara

Thierry Rakotoarivelo

PILM AILaw

555

15 Jun 2025

Large language models can learn and generalize steganographic chain-of-thought under process supervision

...

Lorena Gonzalez-Manzano

213

02 Jun 2025

TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent

423

26 May 2025

The Problem of Algorithmic Collisions: Mitigating Unforeseen Risks in a Connected World

Maurice Chiodo

Dennis Müller

191

26 May 2025

Deceptive Automated Interpretability: Language Models Coordinating to Fool Oversight Systems

Simon Lermen

Mateusz Dziemian

Natalia Pérez-Campanero Antolín

449

10 Apr 2025

Exploiting Fine-Grained Skip Behaviors for Micro-Video RecommendationAAAI Conference on Artificial Intelligence (AAAI), 2025

Sanghyuck Lee

Sangkeun Park

Jaesung Lee

380

04 Apr 2025

MONA: Myopic Optimization with Non-myopic Approval Can Mitigate Multi-step Reward Hacking

526

22 Jan 2025

Hidden in Plain Text: Emergence & Mitigation of Steganographic Collusion in LLMs

Christian Schroeder de Witt

Dylan R. Cope

Nandi Schoots

377

02 Oct 2024

Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits

Andrew Gritsevskiy

Christian Schroeder de Witt

507

03 Jun 2024