PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

6 January 2025

Papers citing "PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models"

19 / 19 papers shown

Title
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models Xiaobao Wu LRM 60 0 0 05 May 2025
Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning Jie Cheng Ruixi Qiao Lijun Li Chao Guo J. Z. Wang Gang Xiong Yisheng Lv Fei-Yue Wang LRM 39 0 0 21 Apr 2025
Towards Optimal Circuit Generation: Multi-Agent Collaboration Meets Collective Intelligence Haiyan Qin Jiahao Feng Xiaotong Feng Wei W. Xing Wang Kang 27 0 0 20 Apr 2025
Efficient Process Reward Model Training via Active Learning Keyu Duan Zichen Liu Xin Mao Tianyu Pang Changyu Chen Qiguang Chen Michael Shieh Longxu Dou LRM 20 1 0 14 Apr 2025
A Comprehensive Survey of Reward Models: Taxonomy, Applications, Challenges, and Future Jialun Zhong Wei Shen Yanzeng Li Songyang Gao Hua Lu Yicheng Chen Yang Zhang Wei Zhou Jinjie Gu Lei Zou LRM 35 1 0 12 Apr 2025
Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program Minghe Gao Xuqi Liu Zhongqi Yue Y. Wu Shuang Chen Juncheng Billy Li Siliang Tang Fei Wu Tat-Seng Chua Yueting Zhuang OffRL LRM 33 1 0 09 Apr 2025
R-PRM: Reasoning-Driven Process Reward Modeling Shuaijie She Junxiao Liu Yifeng Liu Jiajun Chen Xin Huang Shujian Huang LRM 36 2 0 27 Mar 2025
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond Xiaoye Qu Yafu Li Zhaochen Su Weigao Sun Jianhao Yan ... Chaochao Lu Yue Zhang Xian-Sheng Hua Bowen Zhou Yu Cheng ReLM OffRL LRM 76 11 0 27 Mar 2025
MathAgent: Leveraging a Mixture-of-Math-Agent Framework for Real-World Multimodal Mathematical Error Detection Yibo Yan Shen Wang Jiahao Huo Philip S. Yu Xuming Hu Qingsong Wen 48 1 0 23 Mar 2025
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning Weiyun Wang Zhangwei Gao L. Chen Zhe Chen Jinguo Zhu ... Lewei Lu Haodong Duan Yu Qiao Jifeng Dai Wenhai Wang LRM 56 9 0 13 Mar 2025
StepMathAgent: A Step-Wise Agent for Evaluating Mathematical Processes through Tree-of-Error S. M. I. Simon X. Yang C. Wang Yidong Wang Xiaotao Gu Minlie Huang J. Tang LRM LLMAG 59 0 0 13 Mar 2025
VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models Jiacheng Ruan Wenzhen Yuan Xian Gao Ye Guo Daoxin Zhang Zhe Xu Yao Hu Ting Liu Yuzhuo Fu LRM VLM 51 4 0 10 Mar 2025
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges Jiaxin Ai Pengfei Zhou Zhaopan Xu Ming Li Fanrui Zhang ... Jianwen Sun Yukang Feng Baojin Huang Zhongyuan Wang K. Zhang ELM 51 0 0 09 Mar 2025
Better Process Supervision with Bi-directional Rewarding Signals Wenxiang Chen Wei He Zhiheng Xi Honglin Guo Boyang Hong ... Nijun Li Tao Gui Yun Li Qi Zhang Xuanjing Huang LRM 42 2 0 06 Mar 2025
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? Yancheng He Shilong Li J. Liu Weixun Wang Xingyuan Bu ... Zhongyuan Peng Z. Zhang Zhicheng Zheng Wenbo Su Bo Zheng ELM LRM 60 6 0 26 Feb 2025
MathClean: A Benchmark for Synthetic Mathematical Data Cleaning Hao Liang Meiyi Qiang Y. Li Zefeng He Yongzhen Guo Z. Zhu Wentao Zhang Bin Cui 33 0 0 26 Feb 2025
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models Alexander Zhang Marcus Dong J. H. Liu W. Zhang Yejie Wang ... Yancheng He K. Deng Wangchunshu Zhou Wenhao Huang Z. Zhang LRM 47 2 0 23 Feb 2025
A Survey on Feedback-based Multi-step Reasoning for Large Language Models on Mathematics Ting-Ruen Wei Haowei Liu Xuyang Wu Yi Fang LRM AI4CE ReLM KELM 101 1 0 21 Feb 2025
Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning Yibo Yan Shen Wang Jiahao Huo Jingheng Ye Zhendong Chu Xuming Hu Philip S. Yu Carla P. Gomes B. Selman Qingsong Wen LRM 111 9 0 05 Feb 2025