Learning to reinforcement learn

17 November 2016

Papers citing "Learning to reinforcement learn"

27 / 27 papers shown

Title
Co-Reinforcement Learning for Unified Multimodal Understanding and Generation Jingjing Jiang Chongjie Si Jun Luo Hanwang Zhang Chao Ma 106 0 0 23 May 2025
Task Aware Dreamer for Task Generalization in Reinforcement Learning Chengyang Ying Zhongkai Hao Xinning Zhou Hang Su Songming Liu Dong Yan Jun Zhu 153 3 0 17 Feb 2025
Discovering Quality-Diversity Algorithms via Meta-Black-Box Optimization Maxence Faldor Robert Tjarko Lange Antoine Cully 120 1 0 04 Feb 2025
Coreset-Based Task Selection for Sample-Efficient Meta-Reinforcement Learning Donglin Zhan Leonardo F. Toso James Anderson 143 3 0 04 Feb 2025
Toward Task Generalization via Memory Augmentation in Meta-Reinforcement Learning Kaixi Bao Chenhao Li Yarden As Andreas Krause Marco Hutter OffRL CLL 164 1 0 03 Feb 2025
Reinforcement Teaching Alex Lewandowski Calarina Muslimani Dale Schuurmans Matthew E. Taylor Jun Luo 125 1 0 28 Jan 2025
Learning more with the same effort: how randomization improves the robustness of a robotic deep reinforcement learning agent Lucía Güitta-López Jaime Boal Álvaro J. López-López 76 5 0 24 Jan 2025
Pretraining Decision Transformers with Reward Prediction for In-Context Multi-task Structured Bandit Learning Subhojyoti Mukherjee Josiah P. Hanna Qiaomin Xie Robert Nowak 146 2 0 07 Jun 2024
Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning Lanqing Li Hai Zhang Xinyu Zhang Shatong Zhu Junqiao Zhao Junqiao Zhao Pheng-Ann Heng OffRL 69 8 0 04 Feb 2024
Agent Modelling under Partial Observability for Deep Reinforcement Learning Georgios Papoudakis Filippos Christianos Stefano V. Albrecht 49 62 0 16 Jun 2020
Meta-Reinforcement Learning Robust to Distributional Shift via Model Identification and Experience Relabeling Russell Mendonca Xinyang Geng Chelsea Finn Sergey Levine OOD OffRL 72 40 0 12 Jun 2020
Learning to reinforcement learn for Neural Architecture Search J. Gomez Joaquin Vanschoren 38 8 0 09 Nov 2019
Feature Control as Intrinsic Motivation for Hierarchical Reinforcement Learning Nat Dilokthanakul Christos Kaplanis Nick Pawlowski Murray Shanahan 52 92 0 18 May 2017
The Predictron: End-To-End Learning and Planning David Silver H. V. Hasselt Matteo Hessel Tom Schaul A. Guez ... Gabriel Dulac-Arnold David P. Reichert Neil C. Rabinowitz André Barreto T. Degris 50 289 0 28 Dec 2016
Reinforcement Learning with Unsupervised Auxiliary Tasks Max Jaderberg Volodymyr Mnih Wojciech M. Czarnecki Tom Schaul Joel Z Leibo David Silver Koray Kavukcuoglu SSL 43 1,225 0 16 Nov 2016
Learning to Learn without Gradient Descent by Gradient Descent Yutian Chen Matthew W. Hoffman Sergio Gomez Colmenarejo Misha Denil Timothy Lillicrap Matt Botvinick Nando de Freitas 40 42 0 11 Nov 2016
Learning to Navigate in Complex Environments Piotr Wojciech Mirowski Razvan Pascanu Fabio Viola Hubert Soyer Andy Ballard ... Ross Goroshin Laurent Sifre Koray Kavukcuoglu D. Kumaran R. Hadsell 67 876 0 11 Nov 2016
RL $^2$ : Fast Reinforcement Learning via Slow Reinforcement Learning Yan Duan John Schulman Xi Chen Peter L. Bartlett Ilya Sutskever Pieter Abbeel OffRL 67 1,011 0 09 Nov 2016
Neural Architecture Search with Reinforcement Learning Barret Zoph Quoc V. Le 380 5,362 0 05 Nov 2016
Learning to learn by gradient descent by gradient descent Marcin Andrychowicz Misha Denil Sergio Gomez Colmenarejo Matthew W. Hoffman David Pfau Tom Schaul Brendan Shillingford Nando de Freitas 85 2,000 0 14 Jun 2016
Learning to Optimize Ke Li Jitendra Malik 41 256 0 06 Jun 2016
Value Iteration Networks Aviv Tamar Yi Wu G. Thomas Sergey Levine Pieter Abbeel 61 650 0 09 Feb 2016
Asynchronous Methods for Deep Reinforcement Learning Volodymyr Mnih Adria Puigdomenech Badia M. Berk Mirza Alex Graves Timothy Lillicrap Tim Harley David Silver Koray Kavukcuoglu 166 8,805 0 04 Feb 2016
Bounded Regret for Finite-Armed Structured Bandits Tor Lattimore Rémi Munos 92 69 0 11 Nov 2014
Memory Networks Jason Weston S. Chopra Antoine Bordes GNN KELM 127 1,702 0 15 Oct 2014
Learning to Optimize via Information-Directed Sampling Daniel Russo Benjamin Van Roy 104 280 0 21 Mar 2014
Thompson Sampling: An Asymptotically Optimal Finite Time Analysis E. Kaufmann N. Korda Rémi Munos 102 585 0 18 May 2012