Learning by Playing - Solving Sparse Reward Tasks from Scratch

28 February 2018

Martin Riedmiller

Jost Tobias Springenberg

ArXiv PDF HTML

Papers citing "Learning by Playing - Solving Sparse Reward Tasks from Scratch"

50 / 91 papers shown

Title
Reward Training Wheels: Adaptive Auxiliary Rewards for Robotics Reinforcement Learning Linji Wang Tong Xu Yuanjie Lu Xuesu Xiao 48 0 0 19 Mar 2025
Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards Zijing Hu Fengda Zhang Long Chen Kun Kuang Jiahui Li Kaifeng Gao Jun Xiao X. Wang Wenwu Zhu EGVM 56 0 0 14 Mar 2025
From Text to Trajectory: Exploring Complex Constraint Representation and Decomposition in Safe Reinforcement Learning Pusen Dong Tianchen Zhu Yue Qiu Haoyi Zhou Jianxin Li 86 1 0 24 Feb 2025
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration Max Wilcoxson Qiyang Li Kevin Frans Sergey Levine SSL OffRL OnRL 57 0 0 23 Oct 2024
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization Guanlin Liu Kaixuan Ji Ning Dai Zheng Wu Chen Dun Q. Gu Lin Yan Quanquan Gu Lin Yan OffRL LRM 48 9 0 11 Oct 2024
DemoStart: Demonstration-led auto-curriculum applied to sim-to-real with multi-fingered robots Maria Bauzá José Enrique Chen Valentin Dalibard Nimrod Gileadi Roland Hafner ... Martin Riedmiller Jon Scholz Konstantinos Bousmalis Francesco Nori Nicolas Heess 34 5 0 10 Sep 2024
World Models with Hints of Large Language Models for Goal Achieving Zeyuan Liu Ziyu Huan Xiyao Wang Jiafei Lyu Jian Tao Xiu Li Furong Huang Huazhe Xu LM&Ro LRM AI4CE 46 1 0 11 Jun 2024
Feasibility Consistent Representation Learning for Safe Reinforcement Learning Zhepeng Cen Yi-Fan Yao Zuxin Liu Ding Zhao OffRL 40 3 0 20 May 2024
Effective Reinforcement Learning Based on Structural Information Principles Xianghua Zeng Hao Peng Dingli Su Angsheng Li 40 0 0 15 Apr 2024
Offline Actor-Critic Reinforcement Learning Scales to Large Models Jost Tobias Springenberg A. Abdolmaleki Jingwei Zhang Oliver Groth Michael Bloesch ... Sarah Bechtle Steven Kapturowski Roland Hafner N. Heess Martin Riedmiller OffRL LRM 27 12 0 08 Feb 2024
Why Guided Dialog Policy Learning performs well? Understanding the role of adversarial learning and its alternative Sho Shimoyama Tetsuro Morimura Kenshi Abe Toda Takamichi Yuta Tomomatsu Masakazu Sugiyama Asahi Hentona Yuuki Azuma Hirotaka Ninomiya OffRL 26 0 0 13 Jul 2023
Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning Tuomas Haarnoja Ben Moran Guy Lever Sandy H. Huang Dhruva Tirumala ... Andrea Huber N. Hurley F. Nori R. Hadsell N. Heess 44 140 0 26 Apr 2023
Proximal Curriculum for Reinforcement Learning Agents Georgios Tzannetos Bárbara Gomes Ribeiro Parameswaran Kamalaruban Adish Singla 32 5 0 25 Apr 2023
Natural Language-conditioned Reinforcement Learning with Inside-out Task Language Development and Translation Jing-Cheng Pang Xinyi Yang Sibei Yang Yang Yu 29 8 0 18 Feb 2023
CACTI: A Framework for Scalable Multi-Task Multi-Scene Visual Imitation Learning Zhao Mandi Homanga Bharadhwaj Vincent Moens Shuran Song Aravind Rajeswaran Vikash Kumar LM&Ro 28 68 0 12 Dec 2022
Reinforcement learning with Demonstrations from Mismatched Task under Sparse Reward Yanjiang Guo Jingyue Gao Zheng Wu Chengming Shi Jianyu Chen OffRL 21 4 0 03 Dec 2022
CIM: Constrained Intrinsic Motivation for Sparse-Reward Continuous Control Xiang Zheng Xingjun Ma Cong Wang 28 1 0 28 Nov 2022
SkillS: Adaptive Skill Sequencing for Efficient Temporally-Extended Exploration Giulia Vezzani Dhruva Tirumala Markus Wulfmeier Dushyant Rao A. Abdolmaleki ... Tim Hertweck Thomas Lampe Fereshteh Sadeghi N. Heess Martin Riedmiller OffRL 35 6 0 24 Nov 2022
Deep Reinforcement Learning Guided Improvement Heuristic for Job Shop Scheduling Cong Zhang Zhiguang Cao Wen Song Puay Siew Tan Jie Zhang 17 15 0 20 Nov 2022
Automatic Evaluation of Excavator Operators using Learned Reward Functions Pranav Agarwal M. Teichmann Sheldon Andrews Samira Ebrahimi Kahou OffRL 27 2 0 15 Nov 2022
Teacher-student curriculum learning for reinforcement learning Yanick Schraner OffRL 37 2 0 31 Oct 2022
On the Power of Pre-training for Generalization in RL: Provable Benefits and Hardness Haotian Ye Xiaoyu Chen Liwei Wang S. Du OffRL 26 6 0 19 Oct 2022
Learning Skills from Demonstrations: A Trend from Motion Primitives to Experience Abstraction Mehrdad Tavassoli S. Katyara Maria Pozzi Nikhil Deshpande D. Caldwell D. Prattichizzo 25 11 0 14 Oct 2022
A Concise Introduction to Reinforcement Learning in Robotics Akash Nagaraj Mukund Sood B. Patil 17 22 0 13 Oct 2022
Latent Plans for Task-Agnostic Offline Reinforcement Learning Erick Rosete-Beas Oier Mees Gabriel Kalweit Joschka Boedecker Wolfram Burgard OffRL 30 81 0 19 Sep 2022
Contrastive Learning as Goal-Conditioned Reinforcement Learning Benjamin Eysenbach Tianjun Zhang Ruslan Salakhutdinov Sergey Levine SSL OffRL 28 139 0 15 Jun 2022
Meta-Learning Parameterized Skills Haotian Fu Shangqun Yu Saket Tiwari Michael Littman George Konidaris 38 6 0 07 Jun 2022
Critic Sequential Monte Carlo Vasileios Lioutas J. Lavington Justice Sefas Matthew Niedoba Yunpeng Liu Berend Zwartsenberg Setareh Dabiri Frank D. Wood Adam Scibior 47 7 0 30 May 2022
Constrained Reinforcement Learning for Short Video Recommendation Qingpeng Cai Ruohan Zhan Chi Zhang Jie Zheng Guangwei Ding Pinghua Gong Dong Zheng Peng Jiang 20 6 0 26 May 2022
Exploration in Deep Reinforcement Learning: A Survey Pawel Ladosz Lilian Weng Minwoo Kim H. Oh OffRL 23 324 0 02 May 2022
Efficient and practical quantum compiler towards multi-qubit systems with deep reinforcement learning Qiuhao Chen Yuxuan Du Qi Zhao Yuliang Jiao Xiliang Lu Xingyao Wu 23 12 0 14 Apr 2022
Physical Derivatives: Computing policy gradients by physical forward-propagation Arash Mehrjou Ashkan Soleymani Stefan Bauer Bernhard Schölkopf 38 0 0 15 Jan 2022
Learning from Guided Play: A Scheduled Hierarchical Approach for Improving Exploration in Adversarial Imitation Learning Trevor Ablett Bryan Chan Jonathan Kelly 21 4 0 16 Dec 2021
Learning Multi-Stage Tasks with One Demonstration via Self-Replay Norman Di Palo Edward Johns SSL 32 23 0 14 Nov 2021
CubeTR: Learning to Solve The Rubiks Cube Using Transformers Mustafa Chasmai ViT 37 1 0 11 Nov 2021
Towards an Understanding of Default Policies in Multitask Policy Optimization Theodore H. Moskovitz Michael Arbel Jack Parker-Holder Aldo Pacchiano 25 9 0 04 Nov 2021
Hierarchical Skills for Efficient Exploration Jonas Gehring Gabriel Synnaeve Andreas Krause Nicolas Usunier 28 40 0 20 Oct 2021
Training Transition Policies via Distribution Matching for Complex Tasks Ju-Seung Byun Andrew Perrault 13 6 0 08 Oct 2021
Learning Multi-Objective Curricula for Robotic Policy Learning Jikun Kang Miao Liu Abhinav Gupta C. Pal Xue Liu Jie Fu 36 4 0 06 Oct 2021
Is Curiosity All You Need? On the Utility of Emergent Behaviours from Curious Exploration Oliver Groth Markus Wulfmeier Giulia Vezzani Vibhavari Dasagi Tim Hertweck Roland Hafner N. Heess Martin Riedmiller LRM 41 20 0 17 Sep 2021
Gap-Dependent Unsupervised Exploration for Reinforcement Learning Jingfeng Wu Vladimir Braverman Lin F. Yang 30 12 0 11 Aug 2021
Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks Sungryull Sohn Sungtae Lee Jongwook Choi H. V. Seijen Mehdi Fatemi Honglak Lee 108 3 0 13 Jul 2021
Explore and Control with Adversarial Surprise Arnaud Fickinger Natasha Jaques Samyak Parajuli Michael Chang Nicholas Rhinehart Glen Berseth Stuart J. Russell Sergey Levine 34 8 0 12 Jul 2021
Evaluating the progress of Deep Reinforcement Learning in the real world: aligning domain-agnostic and domain-specific research J. Luis E. Crawley B. Cameron OffRL 25 6 0 07 Jul 2021
ScheduleNet: Learn to solve multi-agent scheduling problems with reinforcement learning Junyoung Park Sanjar Bakhtiyar Jinkyoo Park 15 38 0 06 Jun 2021
From Motor Control to Team Play in Simulated Humanoid Football Siqi Liu Guy Lever Zhe Wang J. Merel S. M. Ali Eslami ... Tuomas Haarnoja Brendan D. Tracey K. Tuyls T. Graepel N. Heess 31 129 0 25 May 2021
MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale Dmitry Kalashnikov Jacob Varley Yevgen Chebotar Benjamin Swanson Rico Jonschkowski Chelsea Finn Sergey Levine Karol Hausman OffRL 47 270 0 16 Apr 2021
An Information-Theoretic Perspective on Credit Assignment in Reinforcement Learning Dilip Arumugam Peter Henderson Pierre-Luc Bacon 24 17 0 10 Mar 2021
Self-Supervised Online Reward Shaping in Sparse-Reward Environments F. Memarian Wonjoon Goo Rudolf Lioutikov S. Niekum Ufuk Topcu OffRL 34 48 0 08 Mar 2021
Discovery of Options via Meta-Learned Subgoals Vivek Veeriah Tom Zahavy Matteo Hessel Zhongwen Xu Junhyuk Oh Iurii Kemaev H. V. Hasselt David Silver Satinder Singh 23 33 0 12 Feb 2021