Title
Coupled Distributional Random Expert Distillation for World Model Online Imitation Learning Shangzhe Li Zhiao Huang Hao Su 49 0 0 04 May 2025
TAPNext: Tracking Any Point (TAP) as Next Token Prediction Artem Zholus Carl Doersch Yi Yang Skanda Koppula Viorica Patraucean Xu He Ignacio Rocco Mehdi S. M. Sajjadi Sarath Chandar Ross Goroshin 28 0 0 08 Apr 2025
Applications of Entropy in Data Analysis and Machine Learning: A Review Salomé A. Sepúveda Fontaine José M. Amigó 45 2 0 04 Mar 2025
Yes, Q-learning Helps Offline In-Context RL Denis Tarasov Alexander Nikulin Ilya Zisman Albina Klepach Andrei Polubarov Nikita Lyubaykin Alexander Derevyagin Igor Kiselev Vladislav Kurenkov OffRL OnRL 76 0 0 24 Feb 2025
WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning Zehan Qi Xiao-Chang Liu Iat Long Iong Hanyu Lai X. Sun ... Shuntian Yao Tianjie Zhang Wei Xu J. Tang Yuxiao Dong 93 14 0 28 Jan 2025
Fourier Head: Helping Large Language Models Learn Complex Probability Distributions Nate Gillman Daksh Aggarwal Michael Freeman Saurabh Singh Chen Sun AI4TS 34 3 0 29 Oct 2024
Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance Mitsuhiko Nakamoto Oier Mees Aviral Kumar Sergey Levine OffRL 59 9 0 17 Oct 2024
MAD-TD: Model-Augmented Data stabilizes High Update Ratio RL C. Voelcker Marcel Hussing Eric Eaton Amir-massoud Farahmand Igor Gilitschenski 39 1 0 11 Oct 2024
MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions Yekun Chai Haoran Sun Huang Fang Shuohuan Wang Yu Sun Hua-Hong Wu 36 1 0 03 Oct 2024
Don't flatten, tokenize! Unlocking the key to SoftMoE's efficacy in deep RL Ghada Sokar J. Obando-Ceron Aaron C. Courville Hugo Larochelle Pablo Samuel Castro MoE 47 2 0 02 Oct 2024
The Central Role of the Loss Function in Reinforcement Learning Kaiwen Wang Nathan Kallus Wen Sun OffRL 33 7 0 19 Sep 2024
The Role of Deep Learning Regularizations on Actors in Offline RL Denis Tarasov Anja Surina Çağlar Gülçehre OffRL AI4CE 45 1 0 11 Sep 2024
Is Value Functions Estimation with Classification Plug-and-play for Offline Reinforcement Learning? Denis Tarasov Kirill Brilliantov Dmitrii Kharlapenko OffRL 27 2 0 10 Jun 2024
Bigger, Regularized, Optimistic: scaling for compute and sample-efficient continuous control Michal Nauman M. Ostaszewski Krzysztof Jankowski Piotr Milo's Marek Cygan OffRL 27 16 0 25 May 2024
Disentangling the Causes of Plasticity Loss in Neural Networks Clare Lyle Zeyu Zheng Khimya Khetarpal H. V. Hasselt Razvan Pascanu James Martens Will Dabney AI4CE 47 30 0 29 Feb 2024
Grandmaster-Level Chess Without Search Anian Ruoss Grégoire Delétang Sourabh Medapati Jordi Grau-Moya Wenliang Kevin Li Elliot Catt John Reid Tim Genewein LRM 65 7 0 07 Feb 2024
Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions Yevgen Chebotar Q. Vuong A. Irpan Karol Hausman F. Xia ... Brianna Zitkovich Tomas Jackson Kanishka Rao Chelsea Finn Sergey Levine OffRL 110 81 0 18 Sep 2023
From Sparse to Soft Mixtures of Experts J. Puigcerver C. Riquelme Basil Mustafa N. Houlsby MoE 114 114 0 02 Aug 2023
Bootstrapped Representations in Reinforcement Learning Charline Le Lan Stephen Tu Mark Rowland A. Harutyunyan Rishabh Agarwal Marc G. Bellemare Will Dabney OffRL OOD SSL 59 10 0 16 Jun 2023
One-Step Distributional Reinforcement Learning Mastane Achab Réda Alami Y. A. D. Djilali Kirill Fedyanin Eric Moulines OOD OffRL 23 4 0 27 Apr 2023
Offline RL for Natural Language Generation with Implicit Language Q Learning Charles Burton Snell Ilya Kostrikov Yi Su Mengjiao Yang Sergey Levine OffRL 119 101 0 05 Jun 2022
The Primacy Bias in Deep Reinforcement Learning Evgenii Nikishin Max Schwarzer P. DÓro Pierre-Luc Bacon Aaron C. Courville OnRL 83 178 0 16 May 2022
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems Sergey Levine Aviral Kumar George Tucker Justin Fu OffRL GP 321 1,662 0 04 May 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 220 3,054 0 23 Jan 2020
Pixel Recurrent Neural Networks Aaron van den Oord Nal Kalchbrenner Koray Kavukcuoglu SSeg GAN 219 2,391 0 25 Jan 2016