Title
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning Bowen Jin Hansi Zeng Zhenrui Yue Dong Wang Sercan O. Arik Dong Wang Hamed Zamani Jiawei Han RALM ReLM KELM OffRL AI4TS LRM 226 122 0 12 Mar 2025
CODI: Compressing Chain-of-Thought into Continuous Space via Self-Distillation Zhenyi Shen Hanqi Yan Linhai Zhang Zhanghao Hu Yali Du Yulan He LRM 170 27 0 28 Feb 2025
Vector-ICL: In-context Learning with Continuous Vector Representations Yufan Zhuang Chandan Singh Liyuan Liu Jingbo Shang Jianfeng Gao 134 7 0 21 Feb 2025
LLM Pretraining with Continuous Concepts Jihoon Tack Jack Lanchantin Jane Dwivedi-Yu Andrew Cohen Ilia Kulikov Janice Lan Shibo Hao Yuandong Tian Jason Weston Xian Li CLL 146 4 0 12 Feb 2025
Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning DiJia Su Hanlin Zhu Yingchen Xu Jiantao Jiao Yuandong Tian Qinqing Zheng LRM 142 22 0 05 Feb 2025
Latent Thought Models with Variational Bayes Inference-Time Computation Deqian Kong Minglu Zhao Dehong Xu Bo Pang Shu Wang ... Zhangzhang Si Chuan Li Jianwen Xie Sirui Xie Ying Nian Wu VLM LRM BDL 143 10 0 03 Feb 2025
Efficient Reasoning with Hidden Thinking Xuan Shen Yizhou Wang Xiangxi Shi Yanzhi Wang Pu Zhao Jiuxiang Gu LRM 106 16 0 31 Jan 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 392 2,024 0 22 Jan 2025