AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents

v1v2v3 (latest)

AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents

International Conference on Learning Representations (ICLR), 2024

11 October 2024

Maksym Andriushchenko

Alexandra Souly

Mateusz Dziemian

Matt Fredrikson

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (1859★)

Papers citing "AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents"

0 / 0 papers shown

No papers found