Exploration-Exploitation in Constrained MDPs

4 March 2020

Papers citing "Exploration-Exploitation in Constrained MDPs"

50 / 110 papers shown

Title
Online Nonstochastic Control with Adversarial and Static Constraints Xin Liu Zixi Yang Lei Ying 36 5 0 05 Feb 2023
Pseudonorm Approachability and Applications to Regret Minimization Christoph Dann Yishay Mansour M. Mohri Jon Schneider Balasubramanian Sivan 31 5 0 03 Feb 2023
ReLOAD: Reinforcement Learning with Optimistic Ascent-Descent for Last-Iterate Convergence in Constrained MDPs Theodore H. Moskovitz Brendan O'Donoghue Vivek Veeriah Sebastian Flennerhag Satinder Singh Tom Zahavy 42 19 0 02 Feb 2023
Provable Reset-free Reinforcement Learning by No-Regret Reduction Hoai-An Nguyen Ching-An Cheng OffRL 18 2 0 06 Jan 2023
Contextual Bandits with Packing and Covering Constraints: A Modular Lagrangian Approach via Regression Aleksandrs Slivkins Xingyu Zhou Karthik Abinav Sankararaman Dylan J. Foster 59 22 0 14 Nov 2022
Safe Linear Bandits over Unknown Polytopes Aditya Gangrade Tianrui Chen Venkatesh Saligrama 30 6 0 27 Sep 2022
Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities: Robustness, Safety, and Generalizability Mengdi Xu Zuxin Liu Peide Huang Wenhao Ding Zhepeng Cen Bo-wen Li Ding Zhao 74 45 0 16 Sep 2022
Robust Constrained Reinforcement Learning Yue Wang Fei Miao Shaofeng Zou 34 12 0 14 Sep 2022
An Empirical Evaluation of Posterior Sampling for Constrained Reinforcement Learning Danil Provodin Pratik Gajane Mykola Pechenizkiy M. Kaptein 25 1 0 08 Sep 2022
Trust in Language Grounding: a new AI challenge for human-robot teams David M. Bossens C. Evers 36 1 0 05 Sep 2022
A Near-Optimal Primal-Dual Method for Off-Policy Learning in CMDP Fan Chen Junyu Zhang Zaiwen Wen OffRL 36 8 0 13 Jul 2022
Safe Exploration Incurs Nearly No Additional Sample Complexity for Reward-free RL Ruiquan Huang J. Yang Yingbin Liang OffRL 55 9 0 28 Jun 2022
Provably Efficient Model-Free Constrained RL with Linear Function Approximation A. Ghosh Xingyu Zhou Ness B. Shroff 64 23 0 23 Jun 2022
Near-Optimal Sample Complexity Bounds for Constrained MDPs Sharan Vaswani Lin F. Yang Csaba Szepesvári 29 32 0 13 Jun 2022
Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs Dongsheng Ding Kaipeng Zhang Jiali Duan Tamer Bacsar Mihailo R. Jovanović 18 19 0 06 Jun 2022
Reinforcement Learning with a Terminator Guy Tennenholtz Nadav Merlis Lior Shani Shie Mannor Uri Shalit Gal Chechik Assaf Hallak Gal Dalal 9 5 0 30 May 2022
Safe Reinforcement Learning Using Black-Box Reachability Analysis Mahmoud Selim Amr Alanwar Shreyas Kousik Grace Gao Marco Pavone Karl H. Johansson 29 33 0 15 Apr 2022
On Kernelized Multi-Armed Bandits with Constraints Xingyu Zhou Bo Ji 11 29 0 29 Mar 2022
MuZero with Self-competition for Rate Control in VP9 Video Compression Amol Mandhane A. Zhernov Maribeth Rauh Chenjie Gu Miaosen Wang ... Jackson Broshear Julian Schrittwieser Thomas Hubert Oriol Vinyals Timothy A. Mann 29 43 0 14 Feb 2022
Learning Infinite-Horizon Average-Reward Markov Decision Processes with Constraints Liyu Chen R. Jain Haipeng Luo 54 25 0 31 Jan 2022
Provably Efficient Primal-Dual Reinforcement Learning for CMDPs with Non-stationary Objectives and Constraints Yuhao Ding Javad Lavaei 11 10 0 28 Jan 2022
Constrained Policy Optimization via Bayesian World Models Yarden As Ilnura N. Usmanova Sebastian Curi Andreas Krause OffRL 19 54 0 24 Jan 2022
Constraint Sampling Reinforcement Learning: Incorporating Expertise For Faster Learning Tong Mu Georgios Theocharous David Arbour Emma Brunskill 17 6 0 30 Dec 2021
Differentially Private Regret Minimization in Episodic Markov Decision Processes Sayak Ray Chowdhury Xingyu Zhou 21 21 0 20 Dec 2021
DOPE: Doubly Optimistic and Pessimistic Exploration for Safe Reinforcement Learning Archana Bura Aria HasanzadeZonuzy D. Kalathil S. Shakkottai J. Chamberland 22 28 0 01 Dec 2021
DeCOM: Decomposed Policy for Constrained Cooperative Multi-Agent Reinforcement Learning Zhaoxing Yang Rong Ding Haiming Jin Yifei Wei Haoyi You Guiyun Fan Xiaoying Gan Xinbing Wang 32 4 0 10 Nov 2021
Policy Optimization for Constrained MDPs with Provable Fast Global Convergence Tao-Wen Liu Ruida Zhou D. Kalathil P. R. Kumar Chao Tian 22 19 0 31 Oct 2021
On the Global Optimum Convergence of Momentum-based Policy Gradient Yuhao Ding Junzi Zhang Javad Lavaei 26 16 0 19 Oct 2021
A Dual Approach to Constrained Markov Decision Processes with Entropy Regularization Donghao Ying Yuhao Ding Javad Lavaei 11 32 0 17 Oct 2021
Reinforcement Learning for Finite-Horizon Restless Multi-Armed Multi-Action Bandits Guojun Xiong Jian Li Rahul Singh 17 4 0 20 Sep 2021
Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Primal-Dual Approach Qinbo Bai Amrit Singh Bedi Mridul Agarwal Alec Koppel Vaneet Aggarwal 107 56 0 13 Sep 2021
Concave Utility Reinforcement Learning with Zero-Constraint Violations Mridul Agarwal Qinbo Bai Vaneet Aggarwal 33 12 0 12 Sep 2021
Safe Deep Reinforcement Learning for Multi-Agent Systems with Continuous Action Spaces Ziyad Sheebaelhamd Konstantinos Zisis Athina Nisioti Dimitris Gkouletsos Dario Pavllo Jonas Köhler AI4CE 11 16 0 09 Aug 2021
A Simple Reward-free Approach to Constrained Reinforcement Learning Sobhan Miryoosefi Chi Jin 6 29 0 12 Jul 2021
A Reduction-Based Framework for Conservative Bandits and Reinforcement Learning Yunchang Yang Tianhao Wu Han Zhong Evrard Garcelon Matteo Pirotta A. Lazaric Liwei Wang S. Du OffRL 27 9 0 22 Jun 2021
Safe Reinforcement Learning Using Advantage-Based Intervention Nolan Wagener Byron Boots Ching-An Cheng 29 52 0 16 Jun 2021
Markov Decision Processes with Long-Term Average Constraints Mridul Agarwal Qinbo Bai Vaneet Aggarwal 6 6 0 12 Jun 2021
Safe Reinforcement Learning with Linear Function Approximation Sanae Amani Christos Thrampoulidis Lin F. Yang 6 35 0 11 Jun 2021
Non-Parametric Stochastic Sequential Assignment With Random Arrival Times Danial Dervovic Parisa Hassanzadeh Samuel A. Assefa P. Reddy 14 4 0 09 Jun 2021
Learning Policies with Zero or Bounded Constraint Violation for Constrained MDPs Tao-Wen Liu Ruida Zhou D. Kalathil P. R. Kumar Chao Tian 29 78 0 04 Jun 2021
A Provably-Efficient Model-Free Algorithm for Constrained Markov Decision Processes Honghao Wei Xin Liu Lei Ying 11 21 0 03 Jun 2021
Reward is enough for convex MDPs Tom Zahavy Brendan O'Donoghue Guillaume Desjardins Satinder Singh 64 72 0 01 Jun 2021
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence Wenhao Zhan Shicong Cen Baihe Huang Yuxin Chen Jason D. Lee Yuejie Chi 19 76 0 24 May 2021
Online Selection of Diverse Committees Virginie Do Jamal Atif J. Lang Nicolas Usunier 21 8 0 19 May 2021
Probabilistically Guaranteed Satisfaction of Temporal Logic Constraints During Reinforcement Learning Derya Aksaray Yasin Yazıcıoğlu Ahmet Semi Asarkaya 22 11 0 19 Feb 2021
Provably Efficient Algorithms for Multi-Objective Competitive RL Tiancheng Yu Yi Tian Junzhe Zhang S. Sra 6 20 0 05 Feb 2021
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy Han Zhong Xun Deng Ethan X. Fang Zhuoran Yang Zhaoran Wang Runze Li 16 3 0 28 Dec 2020
Adaptive Sampling for Estimating Distributions: A Bayesian Upper Confidence Bound Approach D. Kartik N. Sood U. Mitra T. Javidi 14 0 0 08 Dec 2020
Accommodating Picky Customers: Regret Bound and Exploration Complexity for Multi-Objective Reinforcement Learning Jingfeng Wu Vladimir Braverman Lin F. Yang 12 10 0 25 Nov 2020
An Asymptotically Optimal Primal-Dual Incremental Algorithm for Contextual Linear Bandits Andrea Tirinzoni Matteo Pirotta Marcello Restelli A. Lazaric 6 34 0 23 Oct 2020