Evaluating Robustness of Reward Models for Mathematical Reasoning

Evaluating Robustness of Reward Models for Mathematical Reasoning

2 October 2024

Sunghwan Kim

Jinyoung Yeo

ArXiv (abs)PDF HTML

Papers citing "Evaluating Robustness of Reward Models for Mathematical Reasoning"

9 / 9 papers shown

Title
EVALUESTEER: Measuring Reward Model Steerability Towards Values and Preferences Kshitish Ghate Andy Liu Devansh Jain Taylor Sorensen Atoosa Kasirzadeh Aylin Caliskan Mona Diab Maarten Sap LLMSV 257 0 0 07 Oct 2025
Why is Your Language Model a Poor Implicit Reward Model? Noam Razin Yong Lin Jiarui Yao Sanjeev Arora LRM 187 0 0 10 Jul 2025
VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models Yuchen Yan Jin Jiang Zhenbang Ren Yijun Li Xudong Cai ... Mengdi Zhang Jian Shao Yongliang Shen Jun Xiao Yueting Zhuang OffRL ALM LRM 336 8 0 21 May 2025
On the Robustness of Reward Models for Language Model Alignment Jiwoo Hong Noah Lee Eunki Kim Guijin Son Woojin Chung Aman Gupta Shao Tang Hyunjung Shim 229 5 0 12 May 2025
A Survey on Feedback-based Multi-step Reasoning for Large Language Models on Mathematics Ting-Ruen Wei Haowei Liu Xuyang Wu Yi Fang LRM AI4CE ReLM KELM 693 8 0 21 Feb 2025
Uncovering Factor Level Preferences to Improve Human-Model AlignmentConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Juhyun Oh Eunsu Kim Jiseon Kim Wenda Xu Inha Cha William Yang Wang Alice Oh 266 1 0 09 Oct 2024
Evaluating Mathematical Reasoning Beyond Accuracy Shijie Xia Xuefeng Li Yixin Liu Tongshuang Wu Pengfei Liu LRM ReLM 248 50 0 08 Apr 2024
Self-Rewarding Language Models Weizhe Yuan Richard Yuanzhe Pang Kyunghyun Cho Xian Li Sainbayar Sukhbaatar Jing Xu Jason Weston ReLM SyDa ALM LRM 810 440 0 18 Jan 2024
WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-InstructInternational Conference on Learning Representations (ICLR), 2023 Haipeng Luo Qingfeng Sun Can Xu Lu Wang Jian-Guang Lou ... Xiubo Geng Qingwei Lin Shifeng Chen Yansong Tang Dongmei Zhang LRM OSLM 724 606 0 18 Aug 2023