v1v2v3v4v5 (latest)

(More) Efficient Reinforcement Learning via Posterior Sampling

Neural Information Processing Systems (NeurIPS), 2013

4 June 2013

Papers citing "(More) Efficient Reinforcement Learning via Posterior Sampling"

50 / 316 papers shown

Regret Lower Bounds for Decentralized Multi-Agent Stochastic Shortest Path Problems

Utkarsh U. Chavan

Prashant Trivedi

N. Hemachandra

151

06 Nov 2025

No-Regret Thompson Sampling for Finite-Horizon Markov Decision Processes with Gaussian Processes

151

23 Oct 2025

The Confusing Instance Principle for Online Linear Quadratic Control

Waris Radji

Odalric-Ambrym Maillard

OffRL

180

22 Oct 2025

Exploration via Feature Perturbation in Contextual Bandits

Seouh-won Yi

Min-hwan Oh

AAML

243

20 Oct 2025

Demystifying the Mechanisms Behind Emergent Exploration in Goal-conditioned RL

147

15 Oct 2025

Bayesian Optimization for Dynamic Pricing and Learning

Anush Anand

Pranav Agrawal

Tejas Bodas

193

14 Oct 2025

Provable Anytime Ensemble Sampling Algorithms in Nonlinear Contextual Bandits

Jiazheng Sun

Weixin Wang

Pan Xu

200

12 Oct 2025

UAMDP: Uncertainty-Aware Markov Decision Process for Risk-Constrained Reinforcement Learning from Probabilistic Forecasts

139

09 Oct 2025

Stochastic Path Planning in Correlated Obstacle Fields

Li Zhou

Elvan Ceyhan

259

23 Sep 2025

Safe and Near-Optimal Control with Online Dynamics Learning

164

20 Sep 2025

Online Bayesian Risk-Averse Reinforcement Learning

Yuhao Wang

Enlu Zhou

OffRL

286

17 Sep 2025

Outcome-based Exploration for LLM Reasoning

321

08 Sep 2025

Priors Matter: Addressing Misspecification in Bayesian Deep Q-Learning

Pascal R. van der Vaart

Neil Yorke-Smith

M. Spaan

BDL UQCV

213

29 Aug 2025

Divide, Discover, Deploy: Factorized Skill Learning with Symmetry and Style Priors

213

27 Aug 2025

QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting

214

22 Aug 2025

Convergent Reinforcement Learning Algorithms for Stochastic Shortest Path Problem

Soumyajit Guin

S. Bhatnagar

122

19 Aug 2025

Q-learning with Posterior Sampling

367

01 Jun 2025

Deep Actor-Critics with Tight Risk Certificates

543

26 May 2025

Are Large Language Models Reliable AI Scientists? Assessing Reverse-Engineering of Black-Box Systems

448

23 May 2025

Toward Efficient Exploration by Large Language Model Agents

Dilip Arumugam

Thomas L. Griffiths

LLMAG

473

29 Apr 2025

Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments

604

27 Apr 2025

Reinforcement Learning from Multi-level and Episodic Human FeedbackConference on Learning for Dynamics & Control (L4DC), 2025

Muhammad Qasim Elahi

Somtochukwu Oguchienti

Maheed H. Ahmed

Mahsa Ghasemi

OffRL

600

20 Apr 2025

Smart Exploration in Reinforcement Learning using Bounded Uncertainty Models

195

08 Apr 2025

Minimax Optimal Reinforcement Learning with Quasi-OptimismInternational Conference on Learning Representations (ICLR), 2025

Harin Lee

Min-hwan Oh

OffRL

420

02 Mar 2025

Online Planning of Power Flows for Power Systems Against Bushfires Using Spatial Context

412

24 Feb 2025

EVaDE : Event-Based Variational Thompson Sampling for Model-Based Reinforcement LearningAsian Conference on Machine Learning (ACML), 2025

326

17 Jan 2025

Online MDP with Transition Prototypes: A Robust Adaptive Approach

Shuo Sun

Meng Qi

Z. Shen

344

18 Dec 2024

Uncertainty-based Offline Variational Bayesian Reinforcement Learning for Robustness under Diverse Data CorruptionsNeural Information Processing Systems (NeurIPS), 2024

462

01 Nov 2024

Demystifying Linear MDPs and Novel Dynamics Aggregation FrameworkInternational Conference on Learning Representations (ICLR), 2024

Joongkyu Lee

Min-hwan Oh

343

31 Oct 2024

Risk-Aware Decision Making in Restless Bandits: Theory and Algorithms for Planning and Learning

Nima Akbarzadeh

Erick Delage

Yossiri Adulyasak

432

30 Oct 2024

Practical Bayesian Algorithm Execution via Posterior SamplingNeural Information Processing Systems (NeurIPS), 2024

297

27 Oct 2024

Random Policy Enables In-Context Reinforcement Learning within Trust Horizons

Weiqin Chen

Santiago Paternain

OffRL

419

25 Oct 2024

EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration

305

08 Oct 2024

Efficient Model-Based Reinforcement Learning Through Optimistic Thompson SamplingInternational Conference on Learning Representations (ICLR), 2024

Jasmine Bayrooti

Carl Henrik Ek

Amanda Prorok

525

07 Oct 2024

SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement LearningIEEE International Conference on Robotics and Automation (ICRA), 2024

482

16 Sep 2024

Random Latent Exploration for Deep Reinforcement Learning

722

18 Jul 2024

Optimistic Q-learning for average reward and episodic reinforcement learning

Priyank Agrawal

Shipra Agrawal

473

18 Jul 2024

Satisficing Exploration for Deep Reinforcement Learning

287

16 Jul 2024

Model-Free Active Exploration in Reinforcement Learning

Alessio Russo

Alexandre Proutiere

OffRL

394

30 Jun 2024

Beyond Optimism: Exploration With Partially Observable Rewards

295

20 Jun 2024

More Efficient Randomized Exploration for Reinforcement Learning via Approximate Sampling

Jianfeng Lu

A. Rupam Mahmood

Doina Precup

Pan Xu

216

18 Jun 2024

Reinforcement Learning and Regret Bounds for Admission ControlInternational Conference on Machine Learning (ICML), 2024

Lucas Weber

A. Busic

Jiamin Zhu

186

07 Jun 2024

Self-Exploring Language Models: Active Preference Elicitation for Online Alignment

306

29 May 2024

Efficient Exploration in Average-Reward Constrained Reinforcement Learning: Achieving Near-Optimal Regret With Posterior Sampling

Danil Provodin

M. Kaptein

Mykola Pechenizkiy

318

29 May 2024

Preparing for Black Swans: The Antifragility Imperative for Machine Learning

Ming Jin

358

18 May 2024

Sequential Decision Making with Expert Demonstrations under Unobserved HeterogeneityNeural Information Processing Systems (NeurIPS), 2024

Vahid Balazadeh Meresht

505

10 Apr 2024

Utilizing Maximum Mean Discrepancy Barycenter for Propagating the Uncertainty of Value Functions in Reinforcement Learning

Srinjoy Roy

Swagatam Das

358

31 Mar 2024

Prior-dependent analysis of posterior sampling reinforcement learning with function approximation

Yingru Li

Zhi-Quan Luo

232

17 Mar 2024

Function-space Parameterization of Neural Networks for Sequential Learning

Arno Solin

289

16 Mar 2024

Model-Free Approximate Bayesian Learning for Large-Scale Conversion Funnel OptimizationProduction and operations management (POM), 2024

Garud Iyengar

Raghav Singal

225

12 Jan 2024