Learning values across many orders of magnitude

24 February 2016

David Silver

Papers citing "Learning values across many orders of magnitude"

49 / 49 papers shown

Title
VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making Jake Grigsby Yuke Zhu Michael S Ryoo Juan Carlos Niebles OffRL VLM 46 0 0 06 May 2025
A General Approach of Automated Environment Design for Learning the Optimal Power Flow Thomas Wolgast Astrid Nieße AI4CE 26 0 0 01 May 2025
A Method for Evaluating Hyperparameter Sensitivity in Reinforcement Learning Jacob Adkins Michael Bowling Adam White 80 1 0 10 Dec 2024
The Evolution of Reinforcement Learning in Quantitative Finance: A Survey Nikolaos Pippas Cagatay Turkay Elliot A. Ludvig AIFin 95 3 0 20 Aug 2024
Video-Language Critic: Transferable Reward Functions for Language-Conditioned Robotics Minttu Alakuijala Reginald McLean Isaac Woungang Nariman Farsad Samuel Kaski Pekka Marttinen Kai Yuan LM&Ro 44 1 0 30 May 2024
Policy-Based Self-Competition for Planning Problems Jonathan Pirnay Q. Göttl Jakob Burger D. G. Grimm 49 3 0 07 Jun 2023
Better Zero-Shot Reasoning with Self-Adaptive Prompting Xingchen Wan Ruoxi Sun H. Dai Sercan O. Arik Tomas Pfister ReLM OffRL LRM 23 48 0 23 May 2023
Online Reinforcement Learning in Non-Stationary Context-Driven Environments Pouya Hamadanian Arash Nasr-Esfahany Malte Schwarzkopf Siddartha Sen MohammadIman Alizadeh CLL OffRL 55 0 0 04 Feb 2023
MAN: Multi-Action Networks Learning Keqin Wang Alison Bartsch A. Farimani 21 3 0 19 Sep 2022
Revisiting Gaussian mixture critics in off-policy reinforcement learning: a sample-based approach Bobak Shahriari A. Abdolmaleki Arunkumar Byravan A. Friesen Siqi Liu Jost Tobias Springenberg N. Heess Matthew W. Hoffman Martin Riedmiller OffRL 46 9 0 21 Apr 2022
Comparative analysis of machine learning methods for active flow control F. Pino Lorenzo Schena Jean Rabault M. A. Mendez 34 43 0 23 Feb 2022
Demystifying Reinforcement Learning in Time-Varying Systems Pouya Hamadanian Malte Schwarzkopf Siddartha Sen MohammadIman Alizadeh 50 1 0 14 Jan 2022
In Defense of the Unitary Scalarization for Deep Multi-Task Learning Vitaly Kurin Alessandro De Palma Ilya Kostrikov Shimon Whiteson M. P. Kumar 41 74 0 11 Jan 2022
Learning Emergent Random Access Protocol for LEO Satellite Networks Ju-Hyung Lee Hyowoon Seo Jihong Park M. Bennis Young-Chai Ko 30 17 0 03 Dec 2021
A Closer Look at Advantage-Filtered Behavioral Cloning in High-Noise Datasets J. E. Grigsby Yanjun Qi OffRL 34 5 0 10 Oct 2021
Tianshou: a Highly Modularized Deep Reinforcement Learning Library Jiayi Weng Huayu Chen Dong Yan Kaichao You Alexis Duburcq Minghao Zhang Yi Su Hang Su Jun Zhu NoLa OffRL 41 195 0 29 Jul 2021
Open-Ended Learning Leads to Generally Capable Agents Open-Ended Learning Team Adam Stooke Anuj Mahajan Catarina Barros Charlie Deck ... Nicolas Porcel Roberta Raileanu Steph Hughes-Fitt Valentin Dalibard Wojciech M. Czarnecki 55 181 0 27 Jul 2021
CoBERL: Contrastive BERT for Reinforcement Learning Andrea Banino Adria Puidomenech Badia Jacob Walker Tim Scholtes Jovana Mitrović Charles Blundell OffRL 32 36 0 12 Jul 2021
Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under Data Augmentation Nicklas Hansen H. Su Xiaolong Wang OffRL 44 135 0 01 Jul 2021
Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning Sebastian Curi Ilija Bogunovic Andreas Krause 39 17 0 18 Mar 2021
Behavior From the Void: Unsupervised Active Pre-Training Hao Liu Pieter Abbeel VLM SSL 46 195 0 08 Mar 2021
Advances in Electron Microscopy with Deep Learning Jeffrey M. Ede 40 2 0 04 Jan 2021
Specialization in Hierarchical Learning Systems Heinke Hihn Daniel A. Braun 29 16 0 03 Nov 2020
Reinforcement Learning with Random Delays Simon Ramstedt Yann Bouteiller Giovanni Beltrame C. Pal Jonathan Binas 130 59 0 06 Oct 2020
Review: Deep Learning in Electron Microscopy Jeffrey M. Ede 44 79 0 17 Sep 2020
Multi-Task Learning with Deep Neural Networks: A Survey M. Crawshaw CVBM 55 610 0 10 Sep 2020
A Distributional View on Multi-Objective Policy Optimization A. Abdolmaleki Sandy H. Huang Leonard Hasenclever Michael Neunert H. F. Song Martina Zambelli M. Martins N. Heess R. Hadsell Martin Riedmiller 26 74 0 15 May 2020
First return, then explore Adrien Ecoffet Joost Huizinga Joel Lehman Kenneth O. Stanley Jeff Clune 47 352 0 27 Apr 2020
Adaptive Partial Scanning Transmission Electron Microscopy with Reinforcement Learning Jeffrey M. Ede 29 12 0 06 Apr 2020
A Survey of Deep Reinforcement Learning in Video Games Kun Shao Zhentao Tang Yuanheng Zhu Nannan Li Dongbin Zhao OffRL AI4TS 43 188 0 23 Dec 2019
Self-Play Learning Without a Reward Metric Dan Schmidt N. Moran Jonathan S. Rosenfeld Jonathan Rosenthal J. Yedidia 19 4 0 16 Dec 2019
Real-Time Reinforcement Learning Simon Ramstedt C. Pal AI4CE 19 62 0 11 Nov 2019
Deep Q-Network for Angry Birds L. Sy S. Redmond 24 5 0 04 Oct 2019
Is Deep Reinforcement Learning Really Superhuman on Atari? Leveling the playing field Marin Toromanoff É. Wirbel Fabien Moutarde OffRL 27 25 0 13 Aug 2019
On Inductive Biases in Deep Reinforcement Learning Matteo Hessel H. V. Hasselt Joseph Modayil David Silver AI4CE 33 41 0 05 Jul 2019
Optimistic Proximal Policy Optimization Takahisa Imagawa Takuya Hiraoka Yoshimasa Tsuruoka 15 4 0 25 Jun 2019
Curiosity-Driven Multi-Criteria Hindsight Experience Replay John Lanier Stephen Marcus McAleer Pierre Baldi OffRL 24 25 0 09 Jun 2019
Longitudinal Dynamic versus Kinematic Models for Car-Following Control Using Deep Reinforcement Learning Yuan Lin J. McPhee N. L. Azad AI4CE 25 34 0 07 May 2019
Model-Free Reinforcement Learning for Financial Portfolios: A Brief Survey Yoshiharu Sato OffRL 24 32 0 10 Apr 2019
Go-Explore: a New Approach for Hard-Exploration Problems Adrien Ecoffet Joost Huizinga Joel Lehman Kenneth O. Stanley Jeff Clune AI4TS 24 363 0 30 Jan 2019
VPE: Variational Policy Embedding for Transfer Reinforcement Learning Isac Arnekvist Danica Kragic J. A. Stork OffRL 25 37 0 10 Sep 2018
Re-evaluating Evaluation David Balduzzi K. Tuyls Julien Perolat T. Graepel MoMe 30 97 0 07 Jun 2018
Policy Gradient With Value Function Approximation For Collective Multiagent Planning D. Nguyen Akshat Kumar H. Lau 17 43 0 09 Apr 2018
Trial without Error: Towards Safe Reinforcement Learning via Human Intervention William Saunders Girish Sastry Andreas Stuhlmuller Owain Evans OffRL 29 229 0 17 Jul 2017
Count-Based Exploration in Feature Space for Reinforcement Learning Jarryd Martin S. N. Sasikumar Tom Everitt Marcus Hutter 24 122 0 25 Jun 2017
Machine Comprehension by Text-to-Text Neural Question Generation Xingdi Yuan Tong Wang Çağlar Gülçehre Alessandro Sordoni Philip Bachman Sandeep Subramanian Saizheng Zhang Adam Trischler OOD 53 187 0 04 May 2017
Deep Reinforcement Learning: An Overview Yuxi Li OffRL VLM 104 1,505 0 25 Jan 2017
#Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning Haoran Tang Rein Houthooft Davis Foote Adam Stooke Xi Chen Yan Duan John Schulman F. Turck Pieter Abbeel OffRL 60 760 0 15 Nov 2016
Faster Eigenvector Computation via Shift-and-Invert Preconditioning Dan Garber Laurent Dinh Chi Jin Jascha Narain Sohl-Dickstein Samy Bengio Praneeth Netrapalli Aaron Sidford 97 3,649 0 26 May 2016