v1v2v3v4v5 (latest)

Off-Policy Actor-Critic

International Conference on Machine Learning (ICML), 2012

22 May 2012

Papers citing "Off-Policy Actor-Critic"

50 / 117 papers shown

The Actor-Critic Update Order Matters for PPO in Federated Reinforcement Learning

Zhijie Xie

Shenghui Song

282

02 Jun 2025

Multi-agent Off-policy Actor-Critic Reinforcement Learning for Partially Observable Environments

Ainur Zhaikhan

Ali H. Sayed

OffRL

278

06 Jul 2024

Distillation Policy Optimization

Jianfei Ma

OffRL

620

01 Feb 2023

Reinforcement Learning with Large Action Spaces for Neural Machine TranslationInternational Conference on Computational Linguistics (COLING), 2022

313

06 Oct 2022

Improved Policy Optimization for Online Imitation Learning

325

29 Jul 2022

Interactive Imitation Learning in Robotics based on Simulations

Xinyi Liu

300

26 Jul 2022

Continual Meta-Reinforcement Learning for UAV-Aided Vehicular Wireless Networks

Riccardo Marini

Sangwoo Park

Osvaldo Simeone

C. Buratti

366

13 Jul 2022

Efficient Distributed Framework for Collaborative Multi-Agent Reinforcement Learning

227

11 May 2022

Variance Reduction based Partial Trajectory Reuse to Accelerate Policy Gradient Optimization

Hua Zheng

Wei Xie

344

06 May 2022

TASAC: a twin-actor reinforcement learning framework with stochastic policy for batch process control

123

22 Apr 2022

Remember and Forget Experience Replay for Multi-Agent Reinforcement Learning

254

24 Mar 2022

Residual Robot Learning for Object-Centric Probabilistic Movement Primitives

João Carvalho

Dorothea Koert

Marek Daniv

Jan Peters

258

08 Mar 2022

A Temporal-Difference Approach to Policy Gradient EstimationInternational Conference on Machine Learning (ICML), 2022

522

04 Feb 2022

Optimal Estimation of Off-Policy Policy Gradient via Double Fitted Iteration

423

31 Jan 2022

GCS: Graph-based Coordination Strategy for Multi-Agent Reinforcement LearningAdaptive Agents and Multi-Agent Systems (AAMAS), 2022

Jun Wang

184

17 Jan 2022

An Analytical Update Rule for General Policy Optimization

Hepeng Li

Nicholas Clavette

Haibo He

280

03 Dec 2021

Adaptively Calibrated Critic Estimates for Deep Reinforcement Learning

Nicolai Dorka

Tim Welschehold

Joschka Boedecker

Wolfram Burgard

OffRL

267

24 Nov 2021

Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction

Shuo Cheng

216

22 Oct 2021

Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm

Raghuram Bharadwaj Diddigi

351

19 Oct 2021

Offline Reinforcement Learning with Soft Behavior Regularization

173

14 Oct 2021

Learning Natural Language Generation from Scratch

Olivier Pietquin

189

20 Sep 2021

Deep Reinforcement Learning for Equal Risk Pricing and Hedging under Dynamic Expectile Risk Measures

S. Marzban

Erick Delage

Jonathan Yu-Meng Li

146

09 Sep 2021

Implicitly Regularized RL with Implicit Q-Values

Nino Vieillard

Olivier Pietquin

231

16 Aug 2021

Optimal Actor-Critic Policy with Optimized Training Datasets

308

16 Aug 2021

Off-Policy Reinforcement Learning with Delayed RewardsInternational Conference on Machine Learning (ICML), 2021

205

22 Jun 2021

On the Convergence Rate of Off-Policy Policy Optimization Methods with Density-Ratio CorrectionInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2021

Jiawei Huang

Nan Jiang

353

02 Jun 2021

Learning to Optimize Industry-Scale Dynamic Pickup and Delivery ProblemsIEEE International Conference on Data Engineering (ICDE), 2021

Xijun Li

Weilin Luo

Mingxuan Yuan

Jun Wang

214

27 May 2021

Finite-Sample Analysis of Off-Policy Natural Actor-Critic with Linear Function ApproximationIEEE Control Systems Letters (L-CSS), 2021

Zaiwei Chen

S. Khodadadian

S. T. Maguluri

OffRL

297

26 May 2021

Unbiased Asymmetric Reinforcement Learning under Partial ObservabilityAdaptive Agents and Multi-Agent Systems (AAMAS), 2021

Andrea Baisero

Chris Amato

OffRL

255

25 May 2021

Towards a Sample Efficient Reinforcement Learning Pipeline for Vision Based Robotics

Maxence Mahe

Pierre Belamri

Jesús Bujalance Martín

206

20 May 2021

Behavior-Guided Actor-Critic: Improving Exploration via Learning Policy Behavior Representation for Deep Reinforcement Learning

Ammar Fayad

M. Ibrahim

BDL

172

09 Apr 2021

NQMIX: Non-monotonic Value Function Factorization for Deep Multi-Agent Reinforcement Learning

Quanlin Chen

OffRL

285

05 Apr 2021

Joint Resource Management for MC-NOMA: A Deep Reinforcement Learning ApproachIEEE Transactions on Wireless Communications (IEEE TWC), 2021

117

29 Mar 2021

Finite-Sample Analysis of Off-Policy Natural Actor-Critic AlgorithmInternational Conference on Machine Learning (ICML), 2021

S. Khodadadian

Zaiwei Chen

S. T. Maguluri

CML OffRL

361

18 Feb 2021

Smoothed functional-based gradient algorithms for off-policy reinforcement learning: A non-asymptotic viewpoint

Nithia Vijayan

A. PrashanthL.

OffRL

396

06 Jan 2021

Adaptable Automation with Modular Deep Reinforcement Learning and Policy TransferEngineering applications of artificial intelligence (EAAI), 2020

Zohreh Raziei

Mohsen Moghaddam

192

27 Nov 2020

What About Inputing Policy in Value Function: Policy Representation and Policy-extended Value Function Approximator

Jianye Hao

...

323

19 Oct 2020

Human-centric Dialog Training via Offline Reinforcement Learning

268

115

12 Oct 2020

Neural Mask Generator: Learning to Generate Adaptive Word Maskings for Language Model Adaptation

295

06 Oct 2020

Learning from eXtreme Bandit FeedbackAAAI Conference on Artificial Intelligence (AAAI), 2020

Romain Lopez

Inderjit S. Dhillon

Sai Li

OffRL

259

27 Sep 2020

Reinforcement Learning for Strategic Recommendations

250

15 Sep 2020

Variance-Reduced Off-Policy Memory-Efficient Policy Search

221

14 Sep 2020

Forward and inverse reinforcement learning sharing network weights and hyperparameters

E. Uchibe

Kenji Doya

193

17 Aug 2020

Off-Policy Multi-Agent Decomposed Policy GradientsInternational Conference on Learning Representations (ICLR), 2020

Tonghan Wang

281

206

24 Jul 2020

EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline and Online RL

Seyed Kamyar Seyed Ghasemipour

Dale Schuurmans

S. Gu

OffRL

592

137

21 Jul 2020

Meta-Gradient Reinforcement Learning with an Objective Discovered OnlineNeural Information Processing Systems (NeurIPS), 2020

David Silver

353

16 Jul 2020

Qgraph-bounded Q-learning: Stabilizing Model-Free Off-Policy Deep Reinforcement Learning

Sabrina Hoppe

Marc Toussaint

OffRL

216

15 Jul 2020

Deep reinforcement learning driven inspection and maintenance planning under incomplete information and constraints

C. Andriotis

K. Papakonstantinou

211

120

02 Jul 2020

Adversarial Soft Advantage Fitting: Imitation Learning without Policy OptimizationNeural Information Processing Systems (NeurIPS), 2020

318

23 Jun 2020

AWAC: Accelerating Online Reinforcement Learning with Offline Datasets

Abhishek Gupta

920

774

16 Jun 2020