SAFER: Probing Safety in Reward Models with Sparse Autoencoder

SAFER: Probing Safety in Reward Models with Sparse Autoencoder

1 July 2025

Sihang Li

Wei Shi

Ziyuan Xie

Tao Liang

Guojun Ma

Xiang Wang

ArXiv (abs)PDF HTML

Papers citing "SAFER: Probing Safety in Reward Models with Sparse Autoencoder"

Title
No papers