ConsistRM: Improving Generative Reward Models via Consistency-Aware Self-Training

ConsistRM: Improving Generative Reward Models via Consistency-Aware Self-Training

8 April 2026

Yu Liang

Liangxin Liu

Longzheng Wang

Yan Wang

Yueyang Zhang

Long Xia

Zhiyuan Sun

Daiting Shi

ArXiv (abs)PDF HTML Github

Papers citing "ConsistRM: Improving Generative Reward Models via Consistency-Aware Self-Training"

0 / 0 papers shown

No papers found