MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation

18 February 2025

Papers citing "MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation"

6 / 6 papers shown

Title
ResearchCodeBench: Benchmarking LLMs on Implementing Novel Machine Learning Research Code Tianyu Hua Harper Hua Violet Xiang Benjamin Klieger Sang T. Truong Weixin Liang Fan-Yun Sun Nick Haber 28 0 0 02 Jun 2025
MCTSr-Zero: Self-Reflective Psychological Counseling Dialogues Generation via Principles and Adaptive Exploration Hao Lu Yanchi Gu Haoyuan Huang Yulin Zhou Ningxin Zhu Chen Li 55 0 0 29 May 2025
Judging with Many Minds: Do More Perspectives Mean Less Prejudice? Chiyu Ma Enpei Zhang Yilun Zhao Wenjun Liu Yaning Jia Peijun Qing Lin Shi Arman Cohan Yujun Yan Soroush Vosoughi LLMAG ELM 60 0 0 26 May 2025
First Finish Search: Efficient Test-Time Scaling in Large Language Models Aradhye Agarwal Ayan Sengupta Tanmoy Chakraborty ReLM RALM ALM LRM 111 0 0 23 May 2025
Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning Junhong Lin Xinyue Zeng Jie Zhu Song Wang Julian Shun Jun Wu Dawei Zhou LRM 157 1 0 22 May 2025
TRAIL: Trace Reasoning and Agentic Issue Localization Darshan Deshpande Varun Gangal Hersh Mehta Jitin Krishnan Anand Kannappan Rebecca Qian 135 0 0 13 May 2025