v1v2v3 (latest)

JudgeLRM: Large Reasoning Models as a Judge

31 March 2025

ArXiv (abs)PDF HTML HuggingFace (62 upvotes)

Papers citing "JudgeLRM: Large Reasoning Models as a Judge"

42 / 42 papers shown

Title
Environment Scaling for Interactive Agentic Experience Collection: A Survey Y. Huang S. Li Minghao Liu Wei Liu Shijue Huang Zhiyuan Fan Hou Pong Chan Yi R. Fung 123 0 0 24 Dec 2025
CoSineVerifier: Tool-Augmented Answer Verification for Computation-Oriented Scientific Questions Ruixiang Feng Zhenwei An Yuntao Wen Ran Le Yiming Jia ... Lisi Chen Shen Gao Shuo Shang Yang Song Tao Zhang LRM 64 0 0 01 Dec 2025
Beyond Query-Level Comparison: Fine-Grained Reinforcement Learning for Text-to-SQL with Automated Interpretable Critiques Guifeng Wang Yuanfeng Song Meng Yang Tao Zhu Xiaoming Yin Xing Chen AI4TS 8 0 0 27 Nov 2025
Judging by the Rules: Compliance-Aligned Framework for Modern Slavery Statement Monitoring Wenhao Xu Akshatha Arodi Jian-Yun Nie Arsène Fansi Tchango AILaw 270 0 0 11 Nov 2025
Deep Ideation: Designing LLM Agents to Generate Novel Research Ideas on Scientific Concept Network Keyu Zhao Weiquan Lin Qirui Zheng Fengli Xu Yong Li LLMAG 130 0 0 04 Nov 2025
Rating Roulette: Self-Inconsistency in LLM-As-A-Judge FrameworksConference on Empirical Methods in Natural Language Processing (EMNLP), 2025 Rajarshi Haldar Julia Hockenmaier 104 1 0 31 Oct 2025
PaTaRM: Bridging Pairwise and Pointwise Signals via Preference-Aware Task-Adaptive Reward Modeling Ai Jian Jingqing Ruan Xing Ma Dailin Li Qianlin Zhou Ke Zeng Xunliang Cai 45 0 0 28 Oct 2025
OpenReward: Learning to Reward Long-form Agentic Tasks via Reinforcement Learning Ziyou Hu Zhengliang Shi Minghang Zhu Haitao Li Teng Sun Pengjie Ren Suzan Verberne Zhaochun Ren RALM LRM 288 0 0 28 Oct 2025
Think Twice: Branch-and-Rethink Reasoning Reward Model Yizhu Jiao Jiaqi Zeng Julien Veron Vialard Oleksii Kuchaiev Jiawei Han Olivier Delalleau OffRL LRM 152 0 0 27 Oct 2025
Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning Ran Xu Jingjing Chen Jiayu Ye Yu Wu Jun Yan Carl Yang Hongkun Yu ELM LRM 226 2 0 27 Oct 2025
VEHME: A Vision-Language Model For Evaluating Handwritten Mathematics Expressions T. Nguyen Duc-Minh Nguyen Hyotaek Jeon Hyunwook Lee Hyunmin Song Sungahn Ko Taehwan Kim 96 0 0 26 Oct 2025
Hearing Health in Home Healthcare: Leveraging LLMs for Illness Scoring and ALMs for Vocal Biomarker Extraction Yu-Wen Chen William Ho Sasha M. Vergez Grace Flaherty Pallavi Gupta ... Maryam Zolnoori Margaret V. McDonald Maxim Topaz Zoran Kostic Julia Hirschberg LM&MA 148 0 0 20 Oct 2025
Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains Austin Xu Xuan-Phi Nguyen Yilun Zhou Chien-Sheng Wu Caiming Xiong Shafiq Joty OffRL ALM LRM ELM 213 0 0 20 Oct 2025
Enhancing Large Language Model Reasoning with Reward Models: An Analytical Survey Qiyuan Liu Hao Xu Xuhong Chen Wei Chen Yee Whye Teh Ning Miao ReLM LRM AI4CE 274 0 0 02 Oct 2025
mR3: Multilingual Rubric-Agnostic Reward Reasoning Models David Anugraha Shou-Yi Hung Zilu Tang Annie En-Shiun Lee Derry Wijaya Genta Indra Winata LRM 400 2 0 01 Oct 2025
On the Shelf Life of Fine-Tuned LLM Judges: Future Proofing, Backward Compatibility, and Question Generalization Janvijay Singh Austin Xu Yilun Zhou Yefan Zhou Dilek Hakkani-Tur Shafiq Joty ELM 112 1 0 28 Sep 2025
Unlocking the Essence of Beauty: Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization Boyang Liu Yifan Hu Senjie Jin Jiajun Sun Gonglei Shi Jie Shao Tao Gui Xuanjing Huang 120 1 0 26 Sep 2025
Variation in Verification: Understanding Verification Dynamics in Large Language Models Yefan Zhou Austin Xu Yilun Zhou Janvijay Singh Jiang Gui Shafiq Joty LRM 164 2 0 22 Sep 2025
Agent-Testing Agent: A Meta-Agent for Automated Testing and Evaluation of Conversational AI Agents Sameer Komoravolu Khalil Mrini LLMAG 56 0 0 24 Aug 2025
ReviewRL: Towards Automated Scientific Review with RL Sihang Zeng Kai Tian Kaiyan Zhang Y. Wang Junqi Gao ... Jingxuan Li Xinwei Long Jiaheng Ma Biqing Qi Bowen Zhou OffRL 104 1 0 14 Aug 2025
Decomposed Reasoning with Reinforcement Learning for Relevance Assessment in UGC Platforms Xiaowei Yuan Lei Jin Haoxin Zhang Yan Gao Yi-Chen Wu Yao Hu Ziyang Huang Jun Zhao Kang Liu 128 0 0 04 Aug 2025
Libra: Assessing and Improving Reward Model by Learning to Think Meng Zhou Bei Li Jiahao Liu Xiaowen Shi Yang Bai Rongxiang Weng Jingang Wang Xunliang Cai OffRL ReLM LRM 158 1 0 29 Jul 2025
Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling Derek Li Jiaming Zhou Amirreza Kazemi Qianyi Sun Abbas Ghaddar ... Liheng Ma Yu-Juan Luo Dong Li Feng Wen Jianye Hao LRM 223 0 0 20 Jul 2025
ReasonGRM: Enhancing Generative Reward Models through Large Reasoning Models Bin Chen Xinzge Gao Chuanrui Hu Penghang Yu Hua Zhang Bing-Kun Bao ReLM LRM 178 5 0 20 Jun 2025
Direct Reasoning Optimization: LLMs Can Reward And Refine Their Own Reasoning for Open-Ended Tasks Yifei Xu Tusher Chakraborty Srinagesh Sharma Leonardo Nunes Emre Kıcıman Songwu Lu Ranveer Chandra OffRL LRM 185 9 0 16 Jun 2025
Task Matters: Knowledge Requirements Shape LLM Responses to Context-Memory Conflict Kaiser Sun Fan Bai Mark Dredze 178 0 0 06 Jun 2025
PulseReddit: A Novel Reddit Dataset for Benchmarking MAS in High-Frequency Cryptocurrency Trading Qiuhan Han Qian Wang Atsushi Yoshikawa Masayuki Yamamura AIFin 210 0 0 04 Jun 2025
Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards Xun Lu Yunyi Yang Yongbo Gai Kai Luo Shihao Huang Jianhe Lin Xiaoxi Jiang Guanjun Jiang 336 0 0 30 May 2025
Flex-Judge: Text-Only Reasoning Unleashes Zero-Shot Multimodal Evaluators Jongwoo Ko S. Kim Sungwoo Cho Se-Young Yun ELM LRM 477 0 0 24 May 2025
Think-J: Learning to Think for Generative LLM-as-a-Judge Hui Huang Yancheng He Hongli Zhou Rui Zhang Wei Liu Weixun Wang Yuchi Xu Bo Zheng Jiaheng Liu LLMAG AILaw ELM LRM 172 5 0 20 May 2025
R3: Robust Rubric-Agnostic Reward Models David Anugraha Zilu Tang Lester James V. Miranda Hanyang Zhao Mohammad Rifqi Farhansyah Garry Kuwanto Derry Wijaya Genta Indra Winata 530 12 0 19 May 2025
J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization Austin Xu Yilun Zhou Xuan-Phi Nguyen Caiming Xiong Shafiq Joty ELM LRM 488 6 0 19 May 2025
J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning Chenxi Whitehouse Tianlu Wang Ping Yu Xian Li Jason Weston Ilia Kulikov Swarnadeep Saha ALM ELM LRM 396 33 0 15 May 2025
RM-R1: Reward Modeling as Reasoning Xiusi Chen Gaotang Li Xiping Hu Sara Szymkuć Cheng Qian ... Yu Zhang D. Zhang Tong Zhang Hanghang Tong Heng Ji ReLM OffRL LRM 758 67 0 05 May 2025
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong Xuzhao Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Qi Zhang Tat-Seng Chua Tianwei Zhang ALM ELM 484 21 0 26 Apr 2025
Inference-Time Scaling for Generalist Reward Modeling Zijun Liu P. Wang Ran Xu Shirong Ma Chong Ruan Ziwei Sun Yang Liu Y. Wu OffRL LRM 462 138 0 03 Apr 2025
Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning Zhaowei Liu X. Guo Fangqi Lou Lingfeng Zeng Jinyi Niu ... Xueqian Zhao Chao Li Sheng Xu Dezhi Chen Yun Chen ReLM AIFin OffRL AI4TS LRM 280 48 0 20 Mar 2025
Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models Yuxiang Lai Shitian Zhao Ming Li Jike Zhong Yuheng Li Konstantinos Psounis Xiaofeng Yang OffRL LRM LM&MA VLM 571 79 0 18 Mar 2025
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs Kanishk Gandhi Ayush Chakravarthy Anikait Singh Nathan Lile Noah D. Goodman ReLM LRM 442 273 0 03 Mar 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 1.2K 5,239 0 22 Jan 2025
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge Dawei Li Bohan Jiang Liangjie Huang Alimohammad Beigi Chengshuai Zhao ... Canyu Chen Tianhao Wu Kai Shu Lu Cheng Huan Liu ELM AILaw 1.0K 248 0 25 Nov 2024
Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators Yann Dubois Balázs Galambosi Abigail Z. Jacobs Tatsunori Hashimoto ALM 438 581 0 06 Apr 2024