Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2508.19229
Cited By

StepWiser: Stepwise Generative Judges for Wiser Reasoning

v1v2 (latest)

StepWiser: Stepwise Generative Judges for Wiser Reasoning

26 August 2025

O. Yu. Golovneva

Sainbayar Sukhbaatar

ArXiv (abs)PDF HTML HuggingFace (17 upvotes)Github (916★)

Papers citing "StepWiser: Stepwise Generative Judges for Wiser Reasoning"

9 / 9 papers shown

Efficient Test-Time Scaling of Multi-Step Reasoning by Probing Internal States of Large Language Models

Efficient Test-Time Scaling of Multi-Step Reasoning by Probing Internal States of Large Language Models

Ekaterina Fadeeva

Mubashara Akhtar

...

Markus Leippold

Timothy Baldwin

Artem Shelmanov

Mrinmaya Sachan

228

0

0

09 Nov 2025

Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains

Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains

Xuan-Phi Nguyen

OffRL ALM LRM ELM

221

0

0

20 Oct 2025

From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization

From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization

103

0

0

13 Oct 2025

Enhancing Large Language Model Reasoning with Reward Models: An Analytical Survey

Enhancing Large Language Model Reasoning with Reward Models: An Analytical Survey

278

0

0

02 Oct 2025

Simultaneous Multi-objective Alignment Across Verifiable and Non-verifiable Rewards

Simultaneous Multi-objective Alignment Across Verifiable and Non-verifiable Rewards

Jonathan D. Chang

Prithviraj Ammanabrolu

160

0

0

01 Oct 2025

Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents

Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents

Shuaiqiang Wang

148

0

0

26 Sep 2025

ProRe: A Proactive Reward System for GUI Agents via Reasoner-Actor Collaboration

ProRe: A Proactive Reward System for GUI Agents via Reasoner-Actor Collaboration

128

0

0

26 Sep 2025

Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training

Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training

Narayanan Sadagopan

132

10

0

03 Sep 2025

Lost at the Beginning of Reasoning

Lost at the Beginning of Reasoning

Christian Herold

Anders Søgaard

Maarten de Rijke

206

5

0

27 Jun 2025