v1v2 (latest)

Off-Policy Policy Gradient with State Distribution Correction

17 April 2019

Papers citing "Off-Policy Policy Gradient with State Distribution Correction"

50 / 55 papers shown

Online Optimization for Offline Safe Reinforcement Learning

179

24 Oct 2025

On The Statistical Complexity of Offline Decision-MakingInternational Conference on Machine Learning (ICML), 2025

Thanh Nguyen-Tang

R. Arora

OffRL

544

10 Jan 2025

On Sample-Efficient Offline Reinforcement Learning: Data Diversity, Posterior Sampling, and Beyond

Thanh Nguyen-Tang

Raman Arora

OffRL

381

06 Jan 2024

Reward Dropout Improves Control: Bi-objective Perspective on Reinforced LM

Changhun Lee

Chiehyeon Lim

337

06 Oct 2023

$$\mathcal{B}$-Coder: Value-Based Deep Reinforcement Learning for Program Synthesis$

\mathcal{B}

-Coder: Value-Based Deep Reinforcement Learning for Program SynthesisInternational Conference on Learning Representations (ICLR), 2023

Hongxia Yang

359

04 Oct 2023

A General Offline Reinforcement Learning Framework for Interactive RecommendationAAAI Conference on Artificial Intelligence (AAAI), 2021

Teng Xiao

Xuetao Zhang

OffRL

316

01 Oct 2023

Budgeting Counterfactual for Offline RLNeural Information Processing Systems (NeurIPS), 2023

368

12 Jul 2023

Reinforcement Learning Tutor Better Supported Lower Performers in a Math TaskMachine-mediated learning (ML), 2023

...

271

11 Apr 2023

Adversarial Model for Offline Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2023

340

21 Feb 2023

Coordinate Ascent for Off-Policy RL with Global Convergence GuaranteesInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2022

282

10 Dec 2022

Behavior Estimation from Multi-Source Data for Offline Reinforcement LearningAAAI Conference on Artificial Intelligence (AAAI), 2022

Guoxi Zhang

H. Kashima

OffRL

242

29 Nov 2022

On Instance-Dependent Bounds for Offline Reinforcement Learning with Linear Function ApproximationAAAI Conference on Artificial Intelligence (AAAI), 2022

Thanh Nguyen-Tang

Ming Yin

240

23 Nov 2022

Data-Efficient Pipeline for Offline Reinforcement Learning with Limited DataNeural Information Processing Systems (NeurIPS), 2022

353

16 Oct 2022

Offline Policy Optimization with Eligible ActionsConference on Uncertainty in Artificial Intelligence (UAI), 2022

195

01 Jul 2022

Offline Stochastic Shortest Path: Learning, Evaluation and Towards OptimalityConference on Uncertainty in Artificial Intelligence (UAI), 2022

Ming Yin

223

10 Jun 2022

Variance Reduction based Partial Trajectory Reuse to Accelerate Policy Gradient Optimization

Hua Zheng

Wei Xie

345

06 May 2022

When Should We Prefer Offline Reinforcement Learning Over Behavioral Cloning?

361

100

12 Apr 2022

Continual Auxiliary Task LearningNeural Information Processing Systems (NeurIPS), 2022

187

22 Feb 2022

Off-Policy Evaluation for Large Action Spaces via EmbeddingsInternational Conference on Machine Learning (ICML), 2022

Yuta Saito

Thorsten Joachims

OffRL

303

13 Feb 2022

Model-Based Offline Meta-Reinforcement Learning with RegularizationInternational Conference on Learning Representations (ICLR), 2022

434

07 Feb 2022

A Temporal-Difference Approach to Policy Gradient EstimationInternational Conference on Machine Learning (ICML), 2022

522

04 Feb 2022

Optimal Estimation of Off-Policy Policy Gradient via Double Fitted Iteration

424

31 Jan 2022

Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor Critic under State Distribution MismatchJournal of machine learning research (JMLR), 2021

Shangtong Zhang

Rémi Tachet des Combes

Romain Laroche

519

04 Nov 2021

Towards Hyperparameter-free Policy Selection for Offline Reinforcement Learning

Siyuan Zhang

Nan Jiang

OffRL

401

26 Oct 2021

Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm

Raghuram Bharadwaj Diddigi

351

19 Oct 2021

Towards Instance-Optimal Offline Reinforcement Learning with Pessimism

Ming Yin

Yu Wang

OffRL

344

17 Oct 2021

Offline Reinforcement Learning with Reverse Model-based Imagination

Siyuan Li

537

01 Oct 2021

Dr Jekyll and Mr Hyde: the Strange Case of Off-Policy Policy Updates

Romain Laroche

Rémi Tachet des Combes

230

29 Sep 2021

Mean-Field Multi-Agent Reinforcement Learning: A Decentralized Network ApproachMathematics of Operations Research (MOR), 2021

332

05 Aug 2021

Learning Expected Emphatic Traces for Deep RL

320

12 Jul 2021

The Curse of Passive Data Collection in Batch Reinforcement Learning

281

18 Jun 2021

Characterizing the Gap Between Actor-Critic and Policy GradientInternational Conference on Machine Learning (ICML), 2021

222

13 Jun 2021

On the Convergence Rate of Off-Policy Policy Optimization Methods with Density-Ratio CorrectionInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2021

Jiawei Huang

Nan Jiang

353

02 Jun 2021

Finite-Sample Analysis of Off-Policy Natural Actor-Critic with Linear Function ApproximationIEEE Control Systems Letters (L-CSS), 2021

Zaiwei Chen

S. Khodadadian

S. T. Maguluri

OffRL

297

26 May 2021

Nearly Horizon-Free Offline Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2021

Sujay Sanghavi

381

25 Mar 2021

On the Convergence and Optimality of Policy Gradient for Markov Coherent Risk

Audrey Huang

Liu Leqi

Zachary Chase Lipton

Kamyar Azizzadenesheli

270

04 Mar 2021

Harnessing Distribution Ratio Estimators for Learning Agents with Quality and Diversity

Tanmay Gangwani

Jian Peng

Yuanshuo Zhou

229

05 Nov 2020

Batch Reinforcement Learning with a Nonparametric Off-Policy Policy GradientIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2020

Samuele Tosatto

João Carvalho

Jan Peters

OffRL

303

27 Oct 2020

Batch Value-function Approximation with Only RealizabilityInternational Conference on Machine Learning (ICML), 2020

Tengyang Xie

Nan Jiang

OffRL

750

131

11 Aug 2020

Batch Policy Learning in Average Reward Markov Decision ProcessesAnnals of Statistics (Ann. Stat.), 2020

393

23 Jul 2020

EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline and Online RL

Seyed Kamyar Seyed Ghasemipour

Dale Schuurmans

S. Gu

OffRL

592

137

21 Jul 2020

Off-policy Bandits with Deficient Support

532

16 Jun 2020

Parameter-Based Value Functions

390

16 Jun 2020

A Survey of Deep Learning for Scientific Discovery

M. Raghu

Erica Schmidt

OOD AI4CE

452

151

26 Mar 2020

Black-box Off-policy Estimation for Infinite-Horizon Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2020

364

24 Mar 2020

Optimizing Medical Treatment for Sepsis in Intensive Care: from Reinforcement Learning to Pre-Trial Evaluation

196

13 Mar 2020

Off-policy Policy Evaluation For Sequential Decisions Under Unobserved ConfoundingNeural Information Processing Systems (NeurIPS), 2020

424

12 Mar 2020

Minimax Value Interval for Off-Policy Evaluation and Policy Optimization

Nan Jiang

Jiawei Huang

OffRL

534

06 Feb 2020

Sublinear Optimal Policy Value Estimation in Contextual BanditsInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2019

219

12 Dec 2019

AlgaeDICE: Policy Gradient from Arbitrary Experience

370

261

04 Dec 2019