Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2209.02167
Cited By

Red Teaming with Mind Reading: White-Box Adversarial Policies Against RL
Agents

v1v2v3 (latest)

Red Teaming with Mind Reading: White-Box Adversarial Policies Against RL Agents

5 September 2022

Gabriel Kreiman

Dylan Hadfield-Menell

ArXiv (abs)PDF HTML Github (1★)

Papers citing "Red Teaming with Mind Reading: White-Box Adversarial Policies Against RL Agents"

1 / 1 papers shown

Black-Box Access is Insufficient for Rigorous AI Audits

Black-Box Access is Insufficient for Rigorous AI AuditsConference on Fairness, Accountability and Transparency (FAccT), 2024

Charlotte Siegmann

Taylor Lynn Curtis

...

Michael Gerovitch

David M. Krueger

Dylan Hadfield-Menell

560

133

0

25 Jan 2024