Title
FlashResearch: Real-time Agent Orchestration for Efficient Deep Research Lunyiu Nie Nedim Lipka Ryan Rossi S. Chaudhuri 17 0 0 02 Oct 2025
VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning Rui Liu Dian Yu Tong Zheng Runpeng Dai Zongxia Li ... Zhenwen Liang Linfeng Song Haitao Mi Pratap Tokekar Dong Yu 44 0 0 01 Oct 2025
Rethinking Thinking Tokens: LLMs as Improvement Operators Lovish Madaan Aniket Didolkar Suchin Gururangan John Quan Ruan Silva Ruslan Salakhutdinov Manzil Zaheer Sanjeev Arora Anirudh Goyal ReLM LRM 18 1 1 01 Oct 2025
Explore-Execute Chain: Towards an Efficient Structured Reasoning Paradigm Kaisen Yang Lixuan He Rushi Shah Kaicheng Yang Qinwei Ma Dianbo Liu Alex Lamb OffRL LRM 12 0 0 28 Sep 2025
Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation Yujun Zhou Zhenwen Liang Haolin Liu Wenhao Yu Kishan Panaganti Linfeng Song Dian Yu Xiangliang Zhang Haitao Mi Dong Yu 12 6 0 18 Sep 2025
CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models Runpeng Dai Linfeng Song Haolin Liu Zhenwen Liang Dian Yu ... Zhaopeng Tu R. Liu Tong Zheng Hongtu Zhu Dong Yu LRM 24 3 0 11 Sep 2025
One Token to Fool LLM-as-a-Judge Yulai Zhao Haolin Liu Dian Yu Sunyuan Kung Meijia Chen Haitao Mi Dong Yu OffRL LRM 26 11 0 11 Jul 2025