Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit Feedback and Unknown Transition

7 March 2024

Papers citing "Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit Feedback and Unknown Transition"

5 / 5 papers shown

Title
Decision Making in Hybrid Environments: A Model Aggregation Approach Haolin Liu Chen-Yu Wei Julian Zimmert 83 0 0 09 Feb 2025
Provably Efficient Reinforcement Learning with Multinomial Logit Function Approximation Long-Fei Li Yu-Jie Zhang Peng Zhao Zhi-Hua Zhou 92 4 0 17 Jan 2025
Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs Long-Fei Li Peng Zhao Zhi-Hua Zhou 39 0 0 05 Nov 2024
Model-Based Reinforcement Learning with Multinomial Logistic Function Approximation Taehyun Hwang Min Hwan Oh 28 8 0 27 Dec 2022
Near-optimal Policy Optimization Algorithms for Learning Adversarial Linear Mixture MDPs Jiafan He Dongruo Zhou Quanquan Gu 92 23 0 17 Feb 2021