All Papers

0 / 0 papers shown

Title

Title
PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation Alexandre Piché Ehsan Kamaloo Rafael Pardinas Xiaoyin Chen Dzmitry Bahdanau OffRL LRM 127 2 0 23 Sep 2025
Two-way Deconfounder for Off-policy Evaluation in Causal Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2024 Shuguang Yu Shuxing Fang Ruixin Peng Zhengling Qi Fan Zhou C. Shi CML OffRL 260 5 0 08 Dec 2024
Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies Haanvid Lee Tri Wahyu Guntara Jongmin Lee Yung-Kyun Noh Kee-Eung Kim OffRL 130 2 0 29 May 2024
Saturn: Sample-efficient Generative Molecular Design using Memory Manipulation Jeff Guo Philippe Schwaller Mamba 233 12 0 27 May 2024
Bayesian Off-Policy Evaluation and Learning for Large Action Spaces Imad Aouali Victor-Emmanuel Brunel David Rohde Anna Korba OffRL 308 9 0 22 Feb 2024
Rankitect: Ranking Architecture Search Battling World-class Engineers at Meta ScaleThe Web Conference (WWW), 2023 Wei Wen Kuang-Hung Liu Igor Fedorov Xin Zhang Hang Yin ... Fangqiu Han Jiyan Yang Yuchen Hao Liang Xiong Wen-Yen Chen 213 2 0 14 Nov 2023
AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline Multi-Agent RL via Alternating Stationary Distribution Correction EstimationNeural Information Processing Systems (NeurIPS), 2023 Daiki E. Matsunaga Jongmin Lee Jaeseok Yoon Stefanos Leonardos Pieter Abbeel Kee-Eung Kim OODD OffRL 134 6 0 03 Nov 2023
$K$ -Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control Michael Giegrich Roel Oomen C. Reisinger OffRL 184 2 0 07 Jun 2023
An Instrumental Variable Approach to Confounded Off-Policy EvaluationInternational Conference on Machine Learning (ICML), 2022 Yang Xu Jin Zhu C. Shi Shuang Luo R. Song OffRL 267 23 0 29 Dec 2022
Actor Prioritized Experience ReplayJournal of Artificial Intelligence Research (JAIR), 2022 Baturay Saglam Furkan B. Mutlu Dogan C. Cicek Suleyman S. Kozat 156 40 0 01 Sep 2022
Conformal Off-policy PredictionInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2022 Yingying Zhang C. Shi Shuang Luo OffRL 241 12 0 14 Jun 2022
Variance Reduction based Partial Trajectory Reuse to Accelerate Policy Gradient Optimization Hua Zheng Wei Xie 242 3 0 06 May 2022
SOPE: Spectrum of Off-Policy Estimators C. J. Yuan Yash Chandak S. Giguere Philip S. Thomas S. Niekum OffRL 209 5 0 06 Nov 2021
Variance Reduction based Experience Replay for Policy Optimization Hua Zheng Wei Xie M. Feng OffRL 397 3 0 17 Oct 2021
Variational Actor-Critic Algorithms Yuhua Zhu Lexing Ying OffRL 128 0 0 03 Aug 2021
Scalable Safety-Critical Policy Evaluation with Accelerated Rare Event SamplingIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2021 Mengdi Xu Peide Huang Fengpei Li Jiacheng Zhu Xuewei Qi K. Oguchi Zhiyuan Huang Henry Lam Ding Zhao 172 4 0 19 Jun 2021
Statistical Testing under Distributional Shifts Nikolaj Thams Sorawit Saengkyongam Niklas Pfister J. Peters OOD 297 11 0 22 May 2021
Learning robust driving policies without online explorationIEEE International Conference on Robotics and Automation (ICRA), 2021 D. Graves Nhat M. Nguyen Kimia Hassanzadeh Jun Jin Jun Luo OffRL 144 3 0 15 Mar 2021
Revisiting Prioritized Experience Replay: A Value Perspective Ang Li Zongqing Lu Chenglin Miao 113 10 0 05 Feb 2021
Offline Learning of Counterfactual Predictions for Real-World Robotic Reinforcement LearningIEEE International Conference on Robotics and Automation (ICRA), 2020 Jun Jin D. Graves Cameron Haigh Jun Luo Martin Jägersand SSL OffRL 218 6 0 11 Nov 2020
Affordance as general value function: A computational modelAdaptive Behavior (AB), 2020 D. Graves Johannes Günther Jun Luo AI4CE 250 6 0 27 Oct 2020
Why resampling outperforms reweighting for correcting sampling bias with stochastic gradients Jing An Lexing Ying Yuhua Zhu 260 43 0 28 Sep 2020
Revisiting Fundamentals of Experience ReplayInternational Conference on Machine Learning (ICML), 2020 W. Fedus Prajit Ramachandran Rishabh Agarwal Yoshua Bengio Hugo Larochelle Mark Rowland Will Dabney KELM OffRL 212 274 0 13 Jul 2020
An Equivalence between Loss Functions and Non-Uniform Sampling in Experience ReplayNeural Information Processing Systems (NeurIPS), 2020 Scott Fujimoto David Meger Doina Precup 223 67 0 12 Jul 2020
Learning predictive representations in autonomous driving to improve deep reinforcement learning D. Graves Nhat M. Nguyen Kimia Hassanzadeh Jun Jin SSL 148 14 0 26 Jun 2020
Off-Policy Deep Reinforcement Learning with Analogous Disentangled ExplorationAdaptive Agents and Multi-Agent Systems (AAMAS), 2020 Hoang Trung-Dung Yitao Liang Karen Ullrich OffRL 125 4 0 25 Feb 2020
Adaptive Experience Selection for Policy Gradient S. Mohamad Giovanni Montana 143 0 0 17 Feb 2020
Merging Deterministic Policy Gradient Estimations with Varied Bias-Variance Tradeoff for Effective Deep Reinforcement Learning Gang Chen 157 4 0 24 Nov 2019
Context-Dependent Upper-Confidence Bounds for Directed ExplorationNeural Information Processing Systems (NeurIPS), 2018 Raksha Kumaraswamy M. Schlegel Adam White Martha White OffRL 167 12 0 15 Nov 2018

Title

PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation

127

23 Sep 2025

Two-way Deconfounder for Off-policy Evaluation in Causal Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2024

260

08 Dec 2024

Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies

130

29 May 2024

Saturn: Sample-efficient Generative Molecular Design using Memory Manipulation

Jeff Guo

Philippe Schwaller

Mamba

233

27 May 2024

Bayesian Off-Policy Evaluation and Learning for Large Action Spaces

Imad Aouali

Victor-Emmanuel Brunel

David Rohde

Anna Korba

OffRL

308

22 Feb 2024

Rankitect: Ranking Architecture Search Battling World-class Engineers at Meta ScaleThe Web Conference (WWW), 2023

...

213

14 Nov 2023

AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline Multi-Agent RL via Alternating Stationary Distribution Correction EstimationNeural Information Processing Systems (NeurIPS), 2023

Pieter Abbeel

134

03 Nov 2023

K

-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control

184

07 Jun 2023

An Instrumental Variable Approach to Confounded Off-Policy EvaluationInternational Conference on Machine Learning (ICML), 2022

267

29 Dec 2022

Actor Prioritized Experience ReplayJournal of Artificial Intelligence Research (JAIR), 2022

Baturay Saglam

Furkan B. Mutlu

Dogan C. Cicek

Suleyman S. Kozat

156

01 Sep 2022

Conformal Off-policy PredictionInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2022

241

14 Jun 2022

Variance Reduction based Partial Trajectory Reuse to Accelerate Policy Gradient Optimization

Hua Zheng

Wei Xie

242

06 May 2022

SOPE: Spectrum of Off-Policy Estimators

209

06 Nov 2021

Variance Reduction based Experience Replay for Policy Optimization

397

17 Oct 2021

Variational Actor-Critic Algorithms

Yuhua Zhu

Lexing Ying

OffRL

128

03 Aug 2021

Scalable Safety-Critical Policy Evaluation with Accelerated Rare Event SamplingIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2021

Ding Zhao

172

19 Jun 2021

Statistical Testing under Distributional Shifts

Niklas Pfister

297

22 May 2021

Learning robust driving policies without online explorationIEEE International Conference on Robotics and Automation (ICRA), 2021

144

15 Mar 2021

Revisiting Prioritized Experience Replay: A Value Perspective

Ang Li

Zongqing Lu

Chenglin Miao

113

05 Feb 2021

Offline Learning of Counterfactual Predictions for Real-World Robotic Reinforcement LearningIEEE International Conference on Robotics and Automation (ICRA), 2020

218

11 Nov 2020

Affordance as general value function: A computational modelAdaptive Behavior (AB), 2020

250

27 Oct 2020

Why resampling outperforms reweighting for correcting sampling bias with stochastic gradients

Jing An

Lexing Ying

Yuhua Zhu

260

28 Sep 2020

Revisiting Fundamentals of Experience ReplayInternational Conference on Machine Learning (ICML), 2020

212

274

13 Jul 2020

An Equivalence between Loss Functions and Non-Uniform Sampling in Experience ReplayNeural Information Processing Systems (NeurIPS), 2020

Scott Fujimoto

David Meger

Doina Precup

223

12 Jul 2020

Learning predictive representations in autonomous driving to improve deep reinforcement learning

148

26 Jun 2020

Off-Policy Deep Reinforcement Learning with Analogous Disentangled ExplorationAdaptive Agents and Multi-Agent Systems (AAMAS), 2020

125

25 Feb 2020

Adaptive Experience Selection for Policy Gradient

S. Mohamad

Giovanni Montana

143

17 Feb 2020

Merging Deterministic Policy Gradient Estimations with Varied Bias-Variance Tradeoff for Effective Deep Reinforcement Learning

Gang Chen

157

24 Nov 2019

Context-Dependent Upper-Confidence Bounds for Directed ExplorationNeural Information Processing Systems (NeurIPS), 2018

167

15 Nov 2018

Title
PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation Alexandre Piché Ehsan Kamaloo Rafael Pardinas Xiaoyin Chen Dzmitry Bahdanau OffRL LRM 127 2 0 23 Sep 2025
Two-way Deconfounder for Off-policy Evaluation in Causal Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2024 Shuguang Yu Shuxing Fang Ruixin Peng Zhengling Qi Fan Zhou C. Shi CML OffRL 260 5 0 08 Dec 2024
Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies Haanvid Lee Tri Wahyu Guntara Jongmin Lee Yung-Kyun Noh Kee-Eung Kim OffRL 130 2 0 29 May 2024
Saturn: Sample-efficient Generative Molecular Design using Memory Manipulation Jeff Guo Philippe Schwaller Mamba 233 12 0 27 May 2024
Bayesian Off-Policy Evaluation and Learning for Large Action Spaces Imad Aouali Victor-Emmanuel Brunel David Rohde Anna Korba OffRL 308 9 0 22 Feb 2024
Rankitect: Ranking Architecture Search Battling World-class Engineers at Meta ScaleThe Web Conference (WWW), 2023 Wei Wen Kuang-Hung Liu Igor Fedorov Xin Zhang Hang Yin ... Fangqiu Han Jiyan Yang Yuchen Hao Liang Xiong Wen-Yen Chen 213 2 0 14 Nov 2023
AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline Multi-Agent RL via Alternating Stationary Distribution Correction EstimationNeural Information Processing Systems (NeurIPS), 2023 Daiki E. Matsunaga Jongmin Lee Jaeseok Yoon Stefanos Leonardos Pieter Abbeel Kee-Eung Kim OODD OffRL 134 6 0 03 Nov 2023
$K$ -Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control Michael Giegrich Roel Oomen C. Reisinger OffRL 184 2 0 07 Jun 2023
An Instrumental Variable Approach to Confounded Off-Policy EvaluationInternational Conference on Machine Learning (ICML), 2022 Yang Xu Jin Zhu C. Shi Shuang Luo R. Song OffRL 267 23 0 29 Dec 2022
Actor Prioritized Experience ReplayJournal of Artificial Intelligence Research (JAIR), 2022 Baturay Saglam Furkan B. Mutlu Dogan C. Cicek Suleyman S. Kozat 156 40 0 01 Sep 2022
Conformal Off-policy PredictionInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2022 Yingying Zhang C. Shi Shuang Luo OffRL 241 12 0 14 Jun 2022
Variance Reduction based Partial Trajectory Reuse to Accelerate Policy Gradient Optimization Hua Zheng Wei Xie 242 3 0 06 May 2022
SOPE: Spectrum of Off-Policy Estimators C. J. Yuan Yash Chandak S. Giguere Philip S. Thomas S. Niekum OffRL 209 5 0 06 Nov 2021
Variance Reduction based Experience Replay for Policy Optimization Hua Zheng Wei Xie M. Feng OffRL 397 3 0 17 Oct 2021
Variational Actor-Critic Algorithms Yuhua Zhu Lexing Ying OffRL 128 0 0 03 Aug 2021
Scalable Safety-Critical Policy Evaluation with Accelerated Rare Event SamplingIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2021 Mengdi Xu Peide Huang Fengpei Li Jiacheng Zhu Xuewei Qi K. Oguchi Zhiyuan Huang Henry Lam Ding Zhao 172 4 0 19 Jun 2021
Statistical Testing under Distributional Shifts Nikolaj Thams Sorawit Saengkyongam Niklas Pfister J. Peters OOD 297 11 0 22 May 2021
Learning robust driving policies without online explorationIEEE International Conference on Robotics and Automation (ICRA), 2021 D. Graves Nhat M. Nguyen Kimia Hassanzadeh Jun Jin Jun Luo OffRL 144 3 0 15 Mar 2021
Revisiting Prioritized Experience Replay: A Value Perspective Ang Li Zongqing Lu Chenglin Miao 113 10 0 05 Feb 2021
Offline Learning of Counterfactual Predictions for Real-World Robotic Reinforcement LearningIEEE International Conference on Robotics and Automation (ICRA), 2020 Jun Jin D. Graves Cameron Haigh Jun Luo Martin Jägersand SSL OffRL 218 6 0 11 Nov 2020
Affordance as general value function: A computational modelAdaptive Behavior (AB), 2020 D. Graves Johannes Günther Jun Luo AI4CE 250 6 0 27 Oct 2020
Why resampling outperforms reweighting for correcting sampling bias with stochastic gradients Jing An Lexing Ying Yuhua Zhu 260 43 0 28 Sep 2020
Revisiting Fundamentals of Experience ReplayInternational Conference on Machine Learning (ICML), 2020 W. Fedus Prajit Ramachandran Rishabh Agarwal Yoshua Bengio Hugo Larochelle Mark Rowland Will Dabney KELM OffRL 212 274 0 13 Jul 2020
An Equivalence between Loss Functions and Non-Uniform Sampling in Experience ReplayNeural Information Processing Systems (NeurIPS), 2020 Scott Fujimoto David Meger Doina Precup 223 67 0 12 Jul 2020
Learning predictive representations in autonomous driving to improve deep reinforcement learning D. Graves Nhat M. Nguyen Kimia Hassanzadeh Jun Jin SSL 148 14 0 26 Jun 2020
Off-Policy Deep Reinforcement Learning with Analogous Disentangled ExplorationAdaptive Agents and Multi-Agent Systems (AAMAS), 2020 Hoang Trung-Dung Yitao Liang Karen Ullrich OffRL 125 4 0 25 Feb 2020
Adaptive Experience Selection for Policy Gradient S. Mohamad Giovanni Montana 143 0 0 17 Feb 2020
Merging Deterministic Policy Gradient Estimations with Varied Bias-Variance Tradeoff for Effective Deep Reinforcement Learning Gang Chen 157 4 0 24 Nov 2019
Context-Dependent Upper-Confidence Bounds for Directed ExplorationNeural Information Processing Systems (NeurIPS), 2018 Raksha Kumaraswamy M. Schlegel Adam White Martha White OffRL 167 12 0 15 Nov 2018

Title

PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation

127

23 Sep 2025

Two-way Deconfounder for Off-policy Evaluation in Causal Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2024

Shuguang Yu