Proximal Policy Optimization Algorithms

20 July 2017

Papers citing "Proximal Policy Optimization Algorithms"

50 / 7,402 papers shown

Title
Unity: A General Platform for Intelligent Agents Arthur Juliani Vincent-Pierre Berges Esh Vckay Andrew Cohen Jonathan Harper ... Chris Goy Yuan Gao Hunter Henry Marwan Mattar Danny Lange 44 810 0 07 Sep 2018
ANS: Adaptive Network Scaling for Deep Rectifier Reinforcement Learning Models Yueh-hua Wu Fan-Yun Sun Yen-Yu Chang Shou-De Lin 28 5 0 06 Sep 2018
Gibson Env: Real-World Perception for Embodied Agents F. Xia Amir Zamir Zhi-Yang He Alexander Sax Jitendra Malik Silvio Savarese AI4CE LM&Ro 34 819 0 31 Aug 2018
Application of Self-Play Reinforcement Learning to a Four-Player Game of Imperfect Information Henry Charlesworth SSL 11 12 0 30 Aug 2018
Importance mixing: Improving sample reuse in evolutionary policy search methods Aloïs Pourchot Nicolas Perrin Olivier Sigaud 30 14 0 17 Aug 2018
Policy Optimization as Wasserstein Gradient Flows Ruiyi Zhang Changyou Chen Chunyuan Li Lawrence Carin 33 66 0 09 Aug 2018
Learning Actionable Representations from Visual Observations Debidatta Dwibedi Jonathan Tompson Corey Lynch P. Sermanet SSL 22 80 0 02 Aug 2018
Learning Dexterous In-Hand Manipulation OpenAI OpenAI Marcin Andrychowicz Bowen Baker Maciek Chociej Rafal Jozefowicz ... Szymon Sidor Joshua Tobin Peter Welinder Lilian Weng Wojciech Zaremba 52 1,861 0 01 Aug 2018
ToriLLE: Learning Environment for Hand-to-Hand Combat Anssi Kanervisto Ville Hautamaki 34 2 0 26 Jul 2018
Multi-Agent Reinforcement Learning: A Report on Challenges and Approaches Sanyam Kapoor 27 31 0 25 Jul 2018
Meta-Learning Priors for Efficient Online Bayesian Regression James Harrison Apoorva Sharma Marco Pavone BDL 37 100 0 24 Jul 2018
Online Robust Policy Learning in the Presence of Unknown Adversaries Aaron J. Havens Zhanhong Jiang Soumik Sarkar AAML 58 43 0 16 Jul 2018
Hierarchical Reinforcement Learning Framework towards Multi-agent Navigation Wenhao Ding Shuaijun Li Huihuan Qian 63 32 0 14 Jul 2018
Deep Learning in the Wild Thilo Stadelmann Mohammadreza Amirian Ismail Arabaci M. Arnold G. Duivesteijn ... Melanie Geiger Stefan Lörwald B. Meier Katharina Rombach Lukas Tuggener 24 42 0 13 Jul 2018
Automatically Composing Representation Transformations as a Means for Generalization Michael Chang Abhishek Gupta Sergey Levine Thomas Griffiths 31 68 0 12 Jul 2018
Variance Reduction for Reinforcement Learning in Input-Driven Environments Hongzi Mao S. Venkatakrishnan Malte Schwarzkopf Mohammad Alizadeh OffRL 41 95 0 06 Jul 2018
BOHB: Robust and Efficient Hyperparameter Optimization at Scale Stefan Falkner Aaron Klein Frank Hutter BDL 56 1,077 0 04 Jul 2018
Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion Jacob Buckman Danijar Hafner George Tucker E. Brevdo Honglak Lee 33 329 0 04 Jul 2018
Using Reinforcement Learning with Partial Vehicle Detection for Intelligent Traffic Signal Control Rusheng Zhang A. Ishikawa Wenli Wang Benjamin Striner Ozan Tonguz 32 101 0 04 Jul 2018
Human-level performance in first-person multiplayer games with population-based deep reinforcement learning Max Jaderberg Wojciech M. Czarnecki Iain Dunning Luke Marris Guy Lever ... Joel Z Leibo David Silver Demis Hassabis Koray Kavukcuoglu T. Graepel OffRL 43 716 0 03 Jul 2018
Towards Mixed Optimization for Reinforcement Learning with Program Synthesis Surya Bhupatiraju Kumar Krishna Agrawal Rishabh Singh 22 6 0 01 Jul 2018
One-Shot Learning of Multi-Step Tasks from Observation via Activity Localization in Auxiliary Video Wonjoon Goo S. Niekum 53 33 0 29 Jun 2018
A Dissection of Overfitting and Generalization in Continuous Reinforcement Learning Amy Zhang Nicolas Ballas Joelle Pineau CLL OffRL 33 177 0 20 Jun 2018
RUDDER: Return Decomposition for Delayed Rewards Jose A. Arjona-Medina Michael Gillhofer Michael Widrich Thomas Unterthiner Johannes Brandstetter Sepp Hochreiter 42 215 0 20 Jun 2018
Learning Policy Representations in Multiagent Systems Aditya Grover Maruan Al-Shedivat Jayesh K. Gupta Yuri Burda Harrison Edwards AI4CE 29 123 0 17 Jun 2018
BaRC: Backward Reachability Curriculum for Robotic Reinforcement Learning Boris Ivanovic James Harrison Apoorva Sharma Mo Chen Marco Pavone OffRL 37 57 0 16 Jun 2018
Maximum a Posteriori Policy Optimisation A. Abdolmaleki Jost Tobias Springenberg Yuval Tassa Rémi Munos N. Heess Martin Riedmiller 48 471 0 14 Jun 2018
Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings John D. Co-Reyes YuXuan Liu Abhishek Gupta Benjamin Eysenbach Pieter Abbeel Sergey Levine SSL BDL AIFin 37 143 0 07 Jun 2018
Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation Jiaxuan You Bowen Liu Rex Ying Vijay S. Pande J. Leskovec GNN 224 893 0 07 Jun 2018
Neural Control Variates for Variance Reduction Ruosi Wan Mingjun Zhong Haoyi Xiong Zhanxing Zhu BDL DRL 27 18 0 01 Jun 2018
Supervised Policy Update for Deep Reinforcement Learning Q. Vuong Yiming Zhang Keith Ross 19 20 0 29 May 2018
Learning Self-Imitating Diverse Policies Tanmay Gangwani Qiang Liu Jian Peng 37 65 0 25 May 2018
Parallel Architecture and Hyperparameter Search via Successive Halving and Classification Manoj Kumar George E. Dahl Vijay Vasudevan Mohammad Norouzi 36 25 0 25 May 2018
Object-Oriented Dynamics Predictor Guangxiang Zhu Zhiao Huang Chongjie Zhang AI4CE 26 36 0 25 May 2018
AutoAugment: Learning Augmentation Policies from Data E. D. Cubuk Barret Zoph Dandelion Mané Vijay Vasudevan Quoc V. Le 68 1,760 0 24 May 2018
Verifiable Reinforcement Learning via Policy Extraction Osbert Bastani Yewen Pu Armando Solar-Lezama OffRL 62 330 0 22 May 2018
Constrained Policy Improvement for Safe and Efficient Reinforcement Learning Elad Sarafian Aviv Tamar Sarit Kraus OffRL 34 11 0 20 May 2018
Unsupervised Video Object Segmentation for Deep Reinforcement Learning Vikrant Goel James Weng Pascal Poupart OCL 27 66 0 20 May 2018
Deep Dynamical Modeling and Control of Unsteady Fluid Flows Jeremy Morton F. Witherden A. Jameson Mykel J. Kochenderfer AI4CE 35 162 0 18 May 2018
Policy Optimization with Second-Order Advantage Information Jiajin Li Baoxiang Wang 25 6 0 09 May 2018
Reward Estimation for Variance Reduction in Deep Reinforcement Learning Joshua Romoff Peter Henderson Alexandre Piché Vincent François-Lavet Joelle Pineau 42 42 0 09 May 2018
Deep Reinforcement Learning to Acquire Navigation Skills for Wheel-Legged Robots in Complex Environments Xi Chen Ali Ghadirzadeh John Folkesson Patric Jensfelt 43 44 0 27 Apr 2018
Sim-to-Real: Learning Agile Locomotion For Quadruped Robots Jie Tan Tingnan Zhang Erwin Coumans Atil Iscen Yunfei Bai Danijar Hafner Steven Bohez Vincent Vanhoucke 42 794 0 27 Apr 2018
Vehicle Communication Strategies for Simulated Highway Driving Cinjon Resnick I. Kulikov Kyunghyun Cho Jason Weston 24 7 0 19 Apr 2018
An Adaptive Clipping Approach for Proximal Policy Optimization Gang Chen Yiming Peng Mengjie Zhang 22 22 0 17 Apr 2018
Rafiki: Machine Learning as an Analytics Service System Wei Wang Sheng Wang Jinyang Gao Meihui Zhang Gang Chen Teck Khim Ng Beng Chin Ooi 53 111 0 17 Apr 2018
Gotta Learn Fast: A New Benchmark for Generalization in RL Alex Nichol Vicki Pfau Christopher Hesse Oleg Klimov John Schulman VLM OffRL 15 178 0 10 Apr 2018
DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills Xue Bin Peng Pieter Abbeel Sergey Levine M. van de Panne AI4CE 181 495 0 08 Apr 2018
Structured Evolution with Compact Architectures for Scalable Policy Optimization K. Choromanski Mark Rowland Vikas Sindhwani Richard Turner Adrian Weller 32 148 0 06 Apr 2018
StarCraft Micromanagement with Reinforcement Learning and Curriculum Transfer Learning Kun Shao Yuanheng Zhu Dongbin Zhao 115 170 0 03 Apr 2018