Title
Prompt Optimization with Logged Bandit Data Haruka Kiyohara Daniel Yiming Cao Yuta Saito Thorsten Joachims 61 0 0 03 Apr 2025
The Safety Challenges of Deep Learning in Real-World Type 1 Diabetes Management Harry Emerson Ryan McConville Matt Guy 33 0 0 23 Oct 2023
Foundational Policy Acquisition via Multitask Learning for Motor Skill Generation Satoshi Yamamori Jun Morimoto 16 0 0 31 Aug 2023
Active Policy Improvement from Multiple Black-box Oracles Xuefeng Liu Takuma Yoneda Chaoqi Wang Matthew R. Walter Yuxin Chen 31 8 0 17 Jun 2023
HOPE: Human-Centric Off-Policy Evaluation for E-Learning and Healthcare Ge Gao Song Ju Markel Sanz Ausin Min Chi OffRL 21 8 0 18 Feb 2023
Offline Learning of Closed-Loop Deep Brain Stimulation Controllers for Parkinson Disease Treatment Qitong Gao Stephen L. Schimdt Afsana Chowdhury Guangyu Feng Jennifer J. Peters Katherine Genty W. Grill Dennis A. Turner Miroslav Pajic OffRL 25 11 0 05 Feb 2023
Variational Latent Branching Model for Off-Policy Evaluation Qitong Gao Ge Gao Min Chi Miroslav Pajic OffRL 26 6 0 28 Jan 2023
Towards A Unified Policy Abstraction Theory and Representation Learning Approach in Markov Decision Processes M. Zhang Hongyao Tang Jianye Hao Yan Zheng OffRL 6 0 0 16 Sep 2022
Discriminator-Weighted Offline Imitation Learning from Suboptimal Demonstrations Haoran Xu Xianyuan Zhan Honglei Yin Huiling Qin OffRL 24 65 0 20 Jul 2022
Offline Policy Comparison with Confidence: Benchmarks and Baselines Anurag Koul Mariano Phielipp Alan Fern OffRL 15 0 0 22 May 2022
User-Interactive Offline Reinforcement Learning Phillip Swazinna Steffen Udluft Thomas Runkler OffRL 21 11 0 21 May 2022
Offline Reinforcement Learning for Safer Blood Glucose Control in People with Type 1 Diabetes Harry Emerson Matt Guy Ryan McConville OffRL 24 46 0 07 Apr 2022
Off-Policy Evaluation with Online Adaptation for Robot Exploration in Challenging Environments Yafei Hu Junyi Geng Chen Wang John Keller S. Scherer OffRL 12 15 0 07 Apr 2022
Reinforcement Learning in Practice: Opportunities and Challenges Yuxi Li OffRL 34 9 0 23 Feb 2022
Supported Policy Optimization for Offline Reinforcement Learning Jialong Wu Haixu Wu Zihan Qiu Jianmin Wang Mingsheng Long OffRL 22 64 0 13 Feb 2022
Why Should I Trust You, Bellman? The Bellman Error is a Poor Replacement for Value Error Scott Fujimoto D. Meger Doina Precup Ofir Nachum S. Gu 15 31 0 28 Jan 2022
DR3: Value-Based Deep Reinforcement Learning Requires Explicit Regularization Aviral Kumar Rishabh Agarwal Tengyu Ma Aaron Courville George Tucker Sergey Levine OffRL 21 65 0 09 Dec 2021
SOPE: Spectrum of Off-Policy Estimators C. J. Yuan Yash Chandak S. Giguere Philip S. Thomas S. Niekum OffRL 42 5 0 06 Nov 2021
Model Selection for Offline Reinforcement Learning: Practical Considerations for Healthcare Settings Shengpu Tang Jenna Wiens OffRL 15 77 0 23 Jul 2021
Supervised Off-Policy Ranking Yue Jin Yue Zhang Tao Qin Xudong Zhang Jian Yuan Houqiang Li Tie-Yan Liu OffRL 17 5 0 03 Jul 2021
A Minimalist Approach to Offline Reinforcement Learning Scott Fujimoto S. Gu OffRL 15 778 0 12 Jun 2021
On Instrumental Variable Regression for Deep Offline Policy Evaluation Yutian Chen Liyuan Xu Çağlar Gülçehre T. Paine A. Gretton Nando de Freitas Arnaud Doucet OffRL 20 17 0 21 May 2021
Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning Cameron Voloshin Hoang Minh Le Nan Jiang Yisong Yue OffRL 20 152 0 15 Nov 2019