Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL

Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL

5 May 2025

Papers citing "Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL"

Title
No papers