v1v2 (latest)

Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning

Neural Information Processing Systems (NeurIPS), 2021

9 June 2021

Huan Wang

ArXiv (abs)PDF HTML Github

Papers citing "Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning"

50 / 122 papers shown

From Static to Dynamic: Enhancing Offline-to-Online Reinforcement Learning via Energy-Guided Diffusion Stratification

520

05 Nov 2025

Behavior-Adaptive Q-Learning: A Unifying Framework for Offline-to-Online RL

343

05 Nov 2025

Greedy Sampling Is Provably Efficient for RLHF

149

28 Oct 2025

Learning Upper Lower Value Envelopes to Shape Online RL: A Principled Approach

167

22 Oct 2025

Rate optimal learning of equilibria from data

141

10 Oct 2025

Offline Reinforcement Learning in Large State Spaces: Algorithms and Guarantees

Nan Jiang

Tengyang Xie

OffRL

249

05 Oct 2025

Adaptive Policy Backbone via Shared Network

Bumgeun Park

Donghwan Lee

OffRL OnRL

320

26 Sep 2025

Generalizing Behavior via Inverse Reinforcement Learning with Closed-Form Reward Centroids

Filippo Lazzati

Alberto Maria Metelli

154

15 Sep 2025

Statistical and Algorithmic Foundations of Reinforcement Learning

278

19 Jul 2025

Reinforcement Learning with Action Chunking

507

10 Jul 2025

Augmenting Online RL with Offline Data is All You Need: A Unified Hybrid RL Algorithm Design and Analysis

509

01 Jul 2025

Efficient Preference-Based Reinforcement Learning: Randomized Exploration Meets Experimental Design

Andreas Schlaginhaufen

Reda Ouhamma

Maryam Kamgarpour

292

11 Jun 2025

MOORL: A Framework for Integrating Offline-Online Reinforcement Learning

483

11 Jun 2025

Learning Equilibria from Data: Provably Efficient Multi-Agent Imitation Learning

352

23 May 2025

Improving the Data-efficiency of Reinforcement Learning by Warm-starting with LLM

489

16 May 2025

Offline and Distributional Reinforcement Learning for Wireless CommunicationsIEEE Communications Magazine (IEEE Commun. Mag.), 2025

Eslam Eldeeb

Hirley Alves

OffRL

241

04 Apr 2025

VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model

423

26 Feb 2025

MILE: Model-based Intervention LearningIEEE International Conference on Robotics and Automation (ICRA), 2025

Yigit Korkmaz

Erdem Bıyık

401

21 Feb 2025

On The Statistical Complexity of Offline Decision-MakingInternational Conference on Machine Learning (ICML), 2025

Thanh Nguyen-Tang

R. Arora

OffRL

554

10 Jan 2025

Attention-Enhanced Short-Time Wiener Solution for Acoustic Echo Cancellation

Fei Zhao

Xueliang Zhang

288

25 Dec 2024

Hybrid Preference Optimization for Alignment: Provably Faster Convergence Rates by Combining Offline Preferences with Online Exploration

412

13 Dec 2024

Hybrid Transfer Reinforcement Learning: Provable Sample Efficiency from Shifted-Dynamics DataInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

312

06 Nov 2024

Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

898

23 Oct 2024

Solving Continual Offline RL through Selective Weights Activation on Aligned Spaces

Zhejian Yang

262

21 Oct 2024

Generalizability of Graph Neural Networks for Decentralized Unlabeled Motion Planning

Shreyas Muthusamy

Damian Owerko

Charilaos I. Kanatsoulis

Saurav Agarwal

Alejandro Ribeiro

335

29 Sep 2024

Goal-Reaching Policy Learning from Non-Expert Observations via Effective Subgoal GuidanceConference on Robot Learning (CoRL), 2024

Yang Yang

Hengtao Shen

OffRL

328

06 Sep 2024

Leveraging Unlabeled Data Sharing through Kernel Function Approximation in Offline Reinforcement Learning

596

22 Aug 2024

Hybrid Reinforcement Learning Breaks Sample Size Barriers in Linear MDPsNeural Information Processing Systems (NeurIPS), 2024

382

08 Aug 2024

Rocket Landing Control with Random Annealing Jump Start Reinforcement Learning

Shengbo Eben Li

175

21 Jul 2024

Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning

294

10 Jul 2024

FOSP: Fine-tuning Offline Safe Policy through World Models

478

06 Jul 2024

Hybrid Reinforcement Learning from Offline Observation Alone

353

11 Jun 2024

Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models

Xiang Ji

387

06 Jun 2024

Bayesian Design Principles for Offline-to-Online Reinforcement Learning

Changjie Fan

321

31 May 2024

Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL

296

28 May 2024

Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer

433

26 May 2024

RLHF Workflow: From Reward Modeling to Online RLHF

Wei Xiong

Yingbo Zhou

Tong Zhang

318

234

13 May 2024

RICE: Breaking Through the Training Bottlenecks of Reinforcement Learning with ExplanationInternational Conference on Machine Learning (ICML), 2024

398

05 May 2024

Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning

Jianye Hao

Zhen Wang

Xuelong Li

OffRL

320

30 Apr 2024

Optimal Design for Human Preference Elicitation

434

22 Apr 2024

Decomposing Control Lyapunov Functions for Efficient Reinforcement LearningAmerican Control Conference (ACC), 2024

Antonio Lopez

David Fridovich-Keil

296

18 Mar 2024

A Natural Extension To Online Algorithms For Hybrid RL With Limited Coverage

Kevin Tan

Ziping Xu

OffRL OnRL

399

07 Mar 2024

Advancing Investment Frontiers: Industry-grade Deep Reinforcement Learning for Portfolio Optimization

Philip Ndikum

Serge Ndikum

392

27 Feb 2024

Federated Offline Reinforcement Learning: Collaborative Single-Policy Coverage Suffices

311

08 Feb 2024

Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy Optimization

Talha Bozkus

Urbashi Mitra

OffRL

322

08 Feb 2024

Learning from Sparse Offline Datasets via Conservative Density EstimationInternational Conference on Learning Representations (ICLR), 2024

Ding Zhao

311

16 Jan 2024

An Information Theoretic Approach to Interaction-Grounded LearningInternational Conference on Machine Learning (ICML), 2024

502

10 Jan 2024

Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint

Wei Xiong

Tong Zhang

506

337

18 Dec 2023

Advancing RAN Slicing with Offline Reinforcement LearningInternational Symposium on Dynamic Spectrum Access Networks (DySPAN), 2023

254

16 Dec 2023

RLIF: Interactive Imitation Learning as Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2023

530

21 Nov 2023