Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling

24 February 2025

Papers citing "Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling"

2 / 2 papers shown

Title
Improving RL Exploration for LLM Reasoning through Retrospective Replay Shihan Dou Muling Wu Jingwen Xu Rui Zheng Tao Gui Qi Zhang Xuanjing Huang OffRL LRM 32 0 0 19 Apr 2025
GiFT: Gibbs Fine-Tuning for Code Generation Haochen Li Wanjin Feng Xin Zhou Zhiqi Shen SyDa 75 1 0 17 Feb 2025