Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning

9 June 2021

Huan Wang

Papers citing "Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning"

31 / 31 papers shown

Title
MILE: Model-based Intervention Learning Yigit Korkmaz Erdem Bıyık 88 2 0 21 Feb 2025
On The Statistical Complexity of Offline Decision-Making Thanh Nguyen-Tang R. Arora OffRL 43 1 0 10 Jan 2025
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration Max Wilcoxson Qiyang Li Kevin Frans Sergey Levine SSL OffRL OnRL 57 0 0 23 Oct 2024
Solving Continual Offline RL through Selective Weights Activation on Aligned Spaces Jifeng Hu Sili Huang Li Shen Zhejian Yang Shengchao Hu Shisong Tang H. Chen Yi-Ju Chang Dacheng Tao Lichao Sun OffRL 36 0 0 21 Oct 2024
FOSP: Fine-tuning Offline Safe Policy through World Models Chenyang Cao Yucheng Xin Silang Wu Longxiang He Zichen Yan Junbo Tan Xueqian Wang OffRL 58 0 0 06 Jul 2024
Federated Offline Reinforcement Learning: Collaborative Single-Policy Coverage Suffices Jiin Woo Laixi Shi Gauri Joshi Yuejie Chi OffRL 24 3 0 08 Feb 2024
An Information Theoretic Approach to Interaction-Grounded Learning Xiaoyan Hu Farzan Farnia Ho-fung Leung VLM 19 2 0 10 Jan 2024
RLIF: Interactive Imitation Learning as Reinforcement Learning Jianlan Luo Perry Dong Yuexiang Zhai Yi Ma Sergey Levine OffRL 25 14 0 21 Nov 2023
Settling the Sample Complexity of Online Reinforcement Learning Zihan Zhang Yuxin Chen Jason D. Lee S. Du OffRL 95 21 0 25 Jul 2023
Policy Finetuning in Reinforcement Learning via Design of Experiments using Offline Data Ruiqi Zhang Andrea Zanette OffRL OnRL 40 7 0 10 Jul 2023
High-probability sample complexities for policy evaluation with linear function approximation Gen Li Weichen Wu Yuejie Chi Cong Ma Alessandro Rinaldo Yuting Wei OffRL 25 6 0 30 May 2023
Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage Jose H. Blanchet Miao Lu Tong Zhang Han Zhong OffRL 42 29 0 16 May 2023
RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment Hanze Dong Wei Xiong Deepanshu Goyal Yihan Zhang Winnie Chow Rui Pan Shizhe Diao Jipeng Zhang Kashun Shum Tong Zhang ALM 18 404 0 13 Apr 2023
Robust Knowledge Transfer in Tiered Reinforcement Learning Jiawei Huang Niao He OffRL 23 1 0 10 Feb 2023
Offline Learning in Markov Games with General Function Approximation Yuheng Zhang Yunru Bai Nan Jiang OffRL 18 8 0 06 Feb 2023
Policy Expansion for Bridging Offline-to-Online Reinforcement Learning Haichao Zhang Weiwen Xu Haonan Yu CLL OffRL OnRL 40 62 0 02 Feb 2023
Policy learning "without'' overlap: Pessimism and generalized empirical Bernstein's inequality Ying Jin Zhimei Ren Zhuoran Yang Zhaoran Wang OffRL 24 25 0 19 Dec 2022
Transfer Learning for Contextual Multi-armed Bandits Changxiao Cai T. Tony Cai Hongzhe Li 39 16 0 22 Nov 2022
A Self-Play Posterior Sampling Algorithm for Zero-Sum Markov Games Wei Xiong Han Zhong Chengshuai Shi Cong Shen Tong Zhang 66 18 0 04 Oct 2022
A Near-Optimal Primal-Dual Method for Off-Policy Learning in CMDP Fan Chen Junyu Zhang Zaiwen Wen OffRL 33 8 0 13 Jul 2022
Offline Stochastic Shortest Path: Learning, Evaluation and Towards Optimality Ming Yin Wenjing Chen Mengdi Wang Yu-Xiang Wang OffRL 30 4 0 10 Jun 2022
Offline Reinforcement Learning with Differential Privacy Dan Qiao Yu-Xiang Wang OffRL 36 23 0 02 Jun 2022
How to Spend Your Robot Time: Bridging Kickstarting and Offline Reinforcement Learning for Vision-based Robotic Manipulation Alex X. Lee Coline Devin Jost Tobias Springenberg Yuxiang Zhou Thomas Lampe A. Abdolmaleki Konstantinos Bousmalis OffRL OnRL 16 15 0 06 May 2022
Jump-Start Reinforcement Learning Ikechukwu Uchendu Ted Xiao Yao Lu Banghua Zhu Mengyuan Yan ... Chuyuan Fu Cong Ma Jiantao Jiao Sergey Levine Karol Hausman OffRL OnRL 35 109 0 05 Apr 2022
Offline Reinforcement Learning Under Value and Density-Ratio Realizability: The Power of Gaps Jinglin Chen Nan Jiang OffRL 21 33 0 25 Mar 2022
The Efficacy of Pessimism in Asynchronous Q-Learning Yuling Yan Gen Li Yuxin Chen Jianqing Fan OffRL 75 40 0 14 Mar 2022
Near-optimal Offline Reinforcement Learning with Linear Representation: Leveraging Variance Information with Pessimism Ming Yin Yaqi Duan Mengdi Wang Yu-Xiang Wang OffRL 32 65 0 11 Mar 2022
Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement Learning Chenjia Bai Lingxiao Wang Zhuoran Yang Zhihong Deng Animesh Garg Peng Liu Zhaoran Wang OffRL 28 132 0 23 Feb 2022
When is Offline Two-Player Zero-Sum Markov Game Solvable? Qiwen Cui S. Du OffRL 30 29 0 10 Jan 2022
Omni-Training: Bridging Pre-Training and Meta-Training for Few-Shot Learning Yang Shu Zhangjie Cao Jing Gao Jianmin Wang Philip S. Yu Mingsheng Long 32 10 0 14 Oct 2021
Provably Efficient Reinforcement Learning with Linear Function Approximation Under Adaptivity Constraints Chi Jin Zhuoran Yang Zhaoran Wang OffRL 122 166 0 06 Jan 2021