PEGASUS: A Policy Search Method for Large MDPs and POMDPs

Conference on Uncertainty in Artificial Intelligence (UAI), 2000

16 January 2013

A. Ng

Sai Li

ArXiv (abs)PDF HTML

Papers citing "PEGASUS: A Policy Search Method for Large MDPs and POMDPs"

50 / 65 papers shown

Agent-state based policies in POMDPs: Beyond belief-state MDPsIEEE Conference on Decision and Control (CDC), 2024

Amit Sinha

Aditya Mahajan

213

24 Sep 2024

Reinforcement learning

Florentin Wörgötter

585

2,932

16 May 2024

Body Schema Acquisition through Active Learning

Ruben Martinez-Cantin

M. Lopes

Luis Montesano

110

08 Feb 2024

ExploitFlow, cyber security exploitation routes for Game Theory and AI research in robotics

Víctor Mayoral-Vilches

126

04 Aug 2023

Sample Average Approximation for Black-Box VI

Javier Burroni

Justin Domke

Daniel Sheldon

200

13 Apr 2023

Discovering Attention-Based Genetic Algorithms via Meta-Black-Box OptimizationAnnual Conference on Genetic and Evolutionary Computation (GECCO), 2023

277

08 Apr 2023

Relative Sparsity for Medical Decision ProblemsStatistics in Medicine (Stat Med), 2022

Samuel J. Weisenthal

Sally W. Thurston

Ashkan Ertefaie

203

29 Nov 2022

Discovering Evolution Strategies via Meta-Black-Box OptimizationInternational Conference on Learning Representations (ICLR), 2022

341

21 Nov 2022

Hindsight Learning for MDPs with Exogenous InputsInternational Conference on Machine Learning (ICML), 2022

Sean R. Sinclair

Felipe Vieira Frujeri

220

13 Jul 2022

Cluster-Based Control of Transition-Independent MDPs

Carmel Fiscko

S. Kar

Bruno Sinopoli

184

11 Jul 2022

The Parametric Cost Function Approximation: A new approach for multistage stochastic programming

Warrren B Powell

Saeed Ghadimi

116

01 Jan 2022

Robot Learning from Randomized Simulations: A ReviewFrontiers in Robotics and AI (Front. Robot. AI), 2021

Wenhao Yu

Jan Peters

322

111

01 Nov 2021

Robust Predictable ControlNeural Information Processing Systems (NeurIPS), 2021

221

07 Sep 2021

A Survey of Exploration Methods in Reinforcement Learning

298

01 Sep 2021

Reinforcement Learning to Optimize Lifetime Value in Cold-Start Recommendation

Luo Ji

Qin Qi

Bingqing Han

Hongxia Yang

OffRL

113

20 Aug 2021

Partially Observable Markov Decision Processes (POMDPs) and Robotics

H. Kurniawati

182

15 Jul 2021

A Bayesian Approach to Identifying Representational Errors

193

28 Mar 2021

RL for Latent MDPs: Regret Guarantees and a Lower BoundNeural Information Processing Systems (NeurIPS), 2021

Jeongyeol Kwon

Yonathan Efroni

Constantine Caramanis

Shie Mannor

231

09 Feb 2021

Model-Based Policy Search Using Monte Carlo Gradient Estimation with Real Systems ApplicationIEEE Transactions on robotics (TRO), 2021

293

28 Jan 2021

Locally Persistent Exploration in Continuous Control Tasks with Sparse RewardsInternational Conference on Machine Learning (ICML), 2020

172

26 Dec 2020

Counterfactual Credit Assignment in Model-Free Reinforcement LearningInternational Conference on Machine Learning (ICML), 2020

...

Marcus Hutter

234

18 Nov 2020

A Study of Policy Gradient on a Class of Exactly Solvable Models

Gavin McCracken

Colin Daniels

Rosie Zhao

Anna M. Brandenberger

Prakash Panangaden

Doina Precup

148

03 Nov 2020

Average-reward model-free reinforcement learning: a systematic review and literature mapping

249

18 Oct 2020

Reinforcement Learning

Olivier Buffer

Olivier Pietquin

Paul Weng

OffRL

114

29 May 2020

Influence-aware Memory Architectures for Deep Reinforcement Learning

194

18 Nov 2019

If MaxEnt RL is the Answer, What is the Question?

Benjamin Eysenbach

Sergey Levine

156

04 Oct 2019

FiDi-RL: Incorporating Deep Reinforcement Learning with Finite-Difference Policy Search for Efficient Learning of Continuous Control

Gang Pan

223

01 Jul 2019

On Value Functions and the Agent-Environment Boundary

Nan Jiang

OffRL

346

30 May 2019

PIPPS: Flexible Model-Based Policy Search Robust to the Curse of Chaos

Paavo Parmas

C. Rasmussen

Jan Peters

Kenji Doya

170

04 Feb 2019

Deep Reinforcement Learning

Yuxi Li

VLM OffRL

361

143

15 Oct 2018

A Hybrid Approach for Trajectory Control Design

L. Freda

M. Gianni

F. Pirri

103

08 Oct 2018

Learning Scheduling Algorithms for Data Processing Clusters

353

731

03 Oct 2018

Policy Optimization via Importance Sampling

Alberto Maria Metelli

259

17 Sep 2018

A survey on policy search algorithms for learning robot controllers in a handful of trialsIEEE Transactions on robotics (T-RO), 2018

Konstantinos Chatzilygeroudis

434

168

06 Jul 2018

Variance Reduction for Reinforcement Learning in Input-Driven EnvironmentsInternational Conference on Learning Representations (ICLR), 2018

213

104

06 Jul 2018

Synthesizing Neural Network Controllers with Probabilistic Model based Reinforcement Learning

175

06 Mar 2018

Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning

Long Xia

310

368

19 Feb 2018

Deep Reinforcement Learning for List-wise Recommendations

313

182

30 Dec 2017

Data-driven Planning via Imitation Learning

207

17 Nov 2017

Data-Efficient Reinforcement Learning with Probabilistic Model Predictive Control

Sanket Kamthe

M. Deisenroth

336

227

20 Jun 2017

Dynamic Motion Planning for Aerial Surveillance on a Fixed-Wing UAV

Vaibhav Darbari

Saksham Gupta

O. Verma

132

22 May 2017

Experimental results : Reinforcement Learning of POMDPs using Spectral Methods

Kamyar Azizzadenesheli

A. Lazaric

Anima Anandkumar

188

07 May 2017

Black-Box Data-efficient Policy Search for Robotics

Konstantinos Chatzilygeroudis

218

116

21 Mar 2017

Sample Efficient Policy Search for Optimal Stopping DomainsInternational Joint Conference on Artificial Intelligence (IJCAI), 2017

Karan Goel

Christoph Dann

Emma Brunskill

21 Feb 2017

Reinforcement Learning Algorithm Selection

Romain Laroche

Raphael Feraud

OffRL

163

30 Jan 2017

Contextual Decision Processes with Low Bellman Rank are PAC-Learnable

312

440

29 Oct 2016

DESPOT: Online POMDP Planning with Regularization

398

528

12 Sep 2016

Configuration Lattices for Planar Contact Manipulation Under Uncertainty

250

30 Apr 2016

Reinforcement Learning of POMDPs using Spectral Methods

Kamyar Azizzadenesheli

A. Lazaric

Anima Anandkumar

199

138

25 Feb 2016

Trust Region Policy Optimization

Pieter Abbeel

982

7,501

19 Feb 2015