The Uncertainty Bellman Equation and Exploration

15 September 2017

Papers citing "The Uncertainty Bellman Equation and Exploration"

45 / 45 papers shown

Title
Toward Efficient Exploration by Large Language Model Agents Dilip Arumugam Thomas L. Griffiths LLMAG 94 1 0 29 Apr 2025
Contextual Similarity Distillation: Ensemble Uncertainties with a Single Model Moritz A. Zanger Pascal R. van der Vaart Wendelin Bohmer M. Spaan UQCV BDL 203 0 0 14 Mar 2025
Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning Abdullah Akgul Manuel Haußmann M. Kandemir OffRL 76 1 0 17 Jan 2025
Q-Distribution guided Q-learning for offline reinforcement learning: Uncertainty penalized Q-value via consistency model Jing Zhang Linjiajie Fang Kexin Shi Wenjia Wang Bing-Yi Jing OffRL 41 0 0 27 Oct 2024
Training Greedy Policy for Proposal Batch Selection in Expensive Multi-Objective Combinatorial Optimization Deokjae Lee Hyun Oh Song Kyunghyun Cho OffRL 49 0 0 21 Jun 2024
Bag of Policies for Distributional Deep Exploration Asen Nachkov Luchen Li Giulia Luise Filippo Valdettaro Aldo A. Faisal OffRL 43 0 0 03 Aug 2023
Diverse Projection Ensembles for Distributional Reinforcement Learning Moritz A. Zanger Wendelin Bohmer M. Spaan 33 4 0 12 Jun 2023
Optimal Scheduling in IoT-Driven Smart Isolated Microgrids Based on Deep Reinforcement Learning Jiaju Qi Lei Lei Kan Zheng Simon X. Yang Xuemin X. Shen 16 11 0 28 Apr 2023
Wasserstein Actor-Critic: Directed Exploration via Optimism for Continuous-Actions Control Amarildo Likmeta Matteo Sacco Alberto Maria Metelli Marcello Restelli OffRL 24 3 0 04 Mar 2023
Model-Based Uncertainty in Value Functions Carlos E. Luis A. Bottero Julia Vinogradska Felix Berkenkamp Jan Peters 36 13 0 24 Feb 2023
STEERING: Stein Information Directed Exploration for Model-Based Reinforcement Learning Souradip Chakraborty Amrit Singh Bedi Alec Koppel Mengdi Wang Furong Huang Dinesh Manocha 24 7 0 28 Jan 2023
Foundation Models for Semantic Novelty in Reinforcement Learning Tarun Gupta Peter Karkus Tong Che Danfei Xu Marco Pavone VLM OffRL LRM 45 7 0 09 Nov 2022
Planning to the Information Horizon of BAMDPs via Epistemic State Abstraction Dilip Arumugam Satinder Singh 29 3 0 30 Oct 2022
Design of experiments for the calibration of history-dependent models via deep reinforcement learning and an enhanced Kalman filter Ruben Villarreal Nikolaos N. Vlassis Nhon N. Phan Tommie A. Catanach Reese E. Jones N. Trask S. Kramer WaiChing Sun OffRL 30 11 0 27 Sep 2022
Exploration in Deep Reinforcement Learning: A Survey Pawel Ladosz Lilian Weng Minwoo Kim H. Oh OffRL 26 324 0 02 May 2022
Accelerating Bayesian Optimization for Biological Sequence Design with Denoising Autoencoders Samuel Stanton Wesley J. Maddox Nate Gruver Phillip M. Maffettone E. Delaney Peyton Greenside A. Wilson BDL 40 89 0 23 Mar 2022
ReVar: Strengthening Policy Evaluation via Reduced Variance Sampling Subhojyoti Mukherjee Josiah P. Hanna Robert D. Nowak OffRL 29 12 0 09 Mar 2022
Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement Learning Chenjia Bai Lingxiao Wang Zhuoran Yang Zhihong Deng Animesh Garg Peng Liu Zhaoran Wang OffRL 40 132 0 23 Feb 2022
Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic Zhihai Wang Jie Wang Qi Zhou Bin Li Houqiang Li 27 30 0 16 Dec 2021
Dealing with the Unknown: Pessimistic Offline Reinforcement Learning Jinning Li Chen Tang Masayoshi Tomizuka Wei Zhan OffRL 19 21 0 09 Nov 2021
The Value of Information When Deciding What to Learn Dilip Arumugam Benjamin Van Roy 37 12 0 26 Oct 2021
Deep Reinforcement Learning Versus Evolution Strategies: A Comparative Survey Amjad Yousef Majid Serge Saaybi Tomas van Rietbergen Vincent François-Lavet R. V. Prasad Chris Verhoeven OffRL 62 55 0 28 Sep 2021
Exploration in Deep Reinforcement Learning: From Single-Agent to Multiagent Domain Jianye Hao Tianpei Yang Hongyao Tang Chenjia Bai Jinyi Liu Zhaopeng Meng Peng Liu Zhen Wang OffRL 36 93 0 14 Sep 2021
Backprop-Free Reinforcement Learning with Active Neural Generative Coding Alexander Ororbia A. Mali 41 15 0 10 Jul 2021
Bayesian Bellman Operators M. Fellows Kristian Hartikainen Shimon Whiteson OffRL 42 15 0 09 Jun 2021
Reinforcement Learning, Bit by Bit Xiuyuan Lu Benjamin Van Roy Vikranth Dwaracherla M. Ibrahimi Ian Osband Zheng Wen 30 70 0 06 Mar 2021
Risk-Averse Bayes-Adaptive Reinforcement Learning Marc Rigter Bruno Lacerda Nick Hawes 27 43 0 10 Feb 2021
Online Limited Memory Neural-Linear Bandits with Likelihood Matching Ofir Nabati Tom Zahavy Shie Mannor 27 18 0 07 Feb 2021
Randomized Value Functions via Posterior State-Abstraction Sampling Dilip Arumugam Benjamin Van Roy OffRL 31 7 0 05 Oct 2020
Temporally-Extended ε-Greedy Exploration Will Dabney Georg Ostrovski André Barreto 22 33 0 02 Jun 2020
First return, then explore Adrien Ecoffet Joost Huizinga Joel Lehman Kenneth O. Stanley Jeff Clune 47 351 0 27 Apr 2020
Reinforcement Learning through Active Inference Alexander Tschantz Beren Millidge A. Seth Christopher L. Buckley AI4CE 26 69 0 28 Feb 2020
Dynamic Energy Dispatch Based on Deep Reinforcement Learning in IoT-Driven Smart Isolated Microgrids Lei Lei Yue Tan Glenn Dahlenburg W. Xiang K. Zheng 16 68 0 07 Feb 2020
Making Sense of Reinforcement Learning and Probabilistic Inference Brendan O'Donoghue Ian Osband Catalin Ionescu OffRL 27 48 0 03 Jan 2020
Better Exploration with Optimistic Actor-Critic K. Ciosek Q. Vuong R. Loftin Katja Hofmann 29 149 0 28 Oct 2019
I'm sorry Dave, I'm afraid I can't do that, Deep Q-learning from forbidden action Mathieu Seurin Philippe Preux Olivier Pietquin 18 12 0 04 Oct 2019
Optimistic Proximal Policy Optimization Takahisa Imagawa Takuya Hiraoka Yoshimasa Tsuruoka 15 4 0 25 Jun 2019
A Bayesian Approach to Robust Reinforcement Learning E. Derman D. Mankowitz Timothy A. Mann Shie Mannor 21 58 0 20 May 2019
Go-Explore: a New Approach for Hard-Exploration Problems Adrien Ecoffet Joost Huizinga Joel Lehman Kenneth O. Stanley Jeff Clune AI4TS 24 362 0 30 Jan 2019
Deep Neural Linear Bandits: Overcoming Catastrophic Forgetting through Likelihood Matching Tom Zahavy Shie Mannor HAI 36 30 0 24 Jan 2019
Preparing for the Unexpected: Diversity Improves Planning Resilience in Evolutionary Algorithms Thomas Gabor Lenz Belzner Thomy Phan Kyrill Schmid 19 14 0 30 Oct 2018
RUDDER: Return Decomposition for Delayed Rewards Jose A. Arjona-Medina Michael Gillhofer Michael Widrich Thomas Unterthiner Johannes Brandstetter Sepp Hochreiter 30 212 0 20 Jun 2018
Maximum a Posteriori Policy Optimisation A. Abdolmaleki Jost Tobias Springenberg Yuval Tassa Rémi Munos N. Heess Martin Riedmiller 48 470 0 14 Jun 2018
Randomized Prior Functions for Deep Reinforcement Learning Ian Osband John Aslanides Albin Cassirer UQCV BDL 21 372 0 08 Jun 2018
Deep Exploration via Randomized Value Functions Ian Osband Benjamin Van Roy Daniel Russo Zheng Wen 41 300 0 22 Mar 2017