Circuit-Aware Reward Training: A Mechanistic Framework for Longtail Robustness in RLHF

Circuit-Aware Reward Training: A Mechanistic Framework for Longtail Robustness in RLHF

29 September 2025

ArXiv (abs)PDF HTML

Papers citing "Circuit-Aware Reward Training: A Mechanistic Framework for Longtail Robustness in RLHF"

Title
No papers found