v1v2v3v4 (latest)

Provably Efficient Exploration in Policy Optimization

International Conference on Machine Learning (ICML), 2019

12 December 2019

Papers citing "Provably Efficient Exploration in Policy Optimization"

50 / 217 papers shown

Greedy Sampling Is Provably Efficient for RLHF

148

28 Oct 2025

On the Sample Complexity of Differentially Private Policy Optimization

Yi He

Xingyu Zhou

164

24 Oct 2025

Revisiting Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning

236

13 Oct 2025

Embracing Evolution: A Call for Body-Control Co-Design in Embodied Humanoid Robot

190

03 Oct 2025

Trajectory Data Suffices for Statistically Efficient Policy Evaluation in Finite-Horizon Offline RL with Linear

q^π

-Realizability and Concentrability

145

03 Oct 2025

Sampling Complexity of TD and PPO in RKHS

156

29 Sep 2025

Replicable Reinforcement Learning with Linear Function Approximation

246

10 Sep 2025

Reasoning with Exploration: An Entropy Perspective

395

201

17 Jun 2025

The Sample Complexity of Online Strategic Decision Making with Information Asymmetry and Knowledge Transportability

249

11 Jun 2025

Linear Mixture Distributionally Robust Markov Decision Processes

Zhishuai Liu

Pan Xu

370

23 May 2025

CAE: Repurposing the Critic as an Explorer in Deep Reinforcement Learning

Yexin Li

OffRL

479

23 Mar 2025

Adversarial Policy Optimization for Offline Preference-based Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2025

Hyungkyu Kang

Min-hwan Oh

OffRL

445

07 Mar 2025

Incentivize without Bonus: Provably Efficient Model-based Online Multi-agent RL for Markov Games

477

13 Feb 2025

Towards a Sharp Analysis of Offline Policy Learning for

f

-Divergence-Regularized Contextual Bandits

495

09 Feb 2025

Online MDP with Transition Prototypes: A Robust Adaptive Approach

Shuo Sun

Meng Qi

Z. Shen

344

18 Dec 2024

Accelerating Proximal Policy Optimization Learning Using Task Prediction for Solving Environments with Delayed RewardsConference on Learning for Dynamics & Control (L4DC), 2024

369

26 Nov 2024

Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPsNeural Information Processing Systems (NeurIPS), 2024

Long-Fei Li

Peng Zhao

Zhi Zhou

283

05 Nov 2024

Demystifying Linear MDPs and Novel Dynamics Aggregation FrameworkInternational Conference on Learning Representations (ICLR), 2024

Joongkyu Lee

Min-hwan Oh

343

31 Oct 2024

Learning Infinite-Horizon Average-Reward Linear Mixture MDPs of Bounded SpanInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

208

19 Oct 2024

Choices are More Important than Efforts: LLM Enables Efficient Multi-Agent Exploration

Chang Liu

401

03 Oct 2024

Dual Approximation Policy Optimization

Zhihan Xiong

Maryam Fazel

Lin Xiao

286

02 Oct 2024

Exploiting Approximate Symmetry for Efficient Multi-Agent Reinforcement LearningConference on Learning for Dynamics & Control (L4DC), 2024

Batuhan Yardim

Niao He

AI4CE

294

27 Aug 2024

Leveraging Unlabeled Data Sharing through Kernel Function Approximation in Offline Reinforcement Learning

587

22 Aug 2024

Misspecified

Q

-Learning with Sparse Linear Function Approximation: Tight Bounds on Approximation Error

Ally Yalei Du

Lin F. Yang

Ruosong Wang

237

18 Jul 2024

Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning

294

10 Jul 2024

Narrowing the Gap between Adversarial and Stochastic MDPs via Policy Optimization

D. Tiapkin

Evgenii Chzhen

Jean-Michel Poggi

390

08 Jul 2024

Warm-up Free Policy Optimization: Improved Regret in Linear Markov Decision Processes

Asaf B. Cassel

Aviv A. Rosenberg

367

03 Jul 2024

Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models

Xiang Ji

387

06 Jun 2024

Bayesian Design Principles for Offline-to-Online Reinforcement Learning

Changjie Fan

318

31 May 2024

Mollification Effects of Policy Gradient Methods

Tao Wang

Sylvia Herbert

Sicun Gao

316

28 May 2024

Trajectory Data Suffices for Statistically Efficient Learning in Offline RL with Linear

q^π

-Realizability and Concentrability

242

27 May 2024

Provably Efficient Off-Policy Adversarial Imitation Learning with Convergence Guarantees

284

26 May 2024

Near-Optimal Regret in Linear MDPs with Aggregate Bandit FeedbackInternational Conference on Machine Learning (ICML), 2024

383

13 May 2024

Imitation Learning in Discounted Linear MDPs without exploration assumptionsInternational Conference on Machine Learning (ICML), 2024

Luca Viano

Stratis Skoulakis

Volkan Cevher

358

03 May 2024

DPO Meets PPO: Reinforced Token Optimization for RLHF

785

119

29 Apr 2024

Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation

Jianliang He

Han Zhong

Zhuoran Yang

356

19 Apr 2024

Prior-dependent analysis of posterior sampling reinforcement learning with function approximation

Yingru Li

Zhi-Quan Luo

232

17 Mar 2024

Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit Feedback and Unknown TransitionInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

Long-Fei Li

Peng Zhao

Zhi Zhou

375

07 Mar 2024

Corruption-Robust Offline Two-Player Zero-Sum Markov Games

269

04 Mar 2024

Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation

415

28 Feb 2024

Truly No-Regret Learning in Constrained MDPs

446

24 Feb 2024

Reinforcement Learning from Human Feedback with Active Queries

Kaixuan Ji

Jiafan He

Quanquan Gu

524

14 Feb 2024

Rethinking Model-based, Policy-based, and Value-based Reinforcement Learning via the Lens of Representation ComplexityNeural Information Processing Systems (NeurIPS), 2023

Guhao Feng

Han Zhong

OffRL

318

28 Dec 2023

Optimistic Policy Gradient in Multi-Player Markov Games with a Single Controller: Convergence Beyond the Minty Property

394

19 Dec 2023

Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint

Wei Xiong

Tong Zhang

505

332

18 Dec 2023

Learning Adversarial Low-rank Markov Decision Processes with Unknown Transition and Full-information FeedbackNeural Information Processing Systems (NeurIPS), 2023

Canzhe Zhao

Ruofeng Yang

Baoxiang Wang

Xuezhou Zhang

Shuai Li

297

14 Nov 2023

Improved Bayesian Regret Bounds for Thompson Sampling in Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2023

Ahmadreza Moradipari

M. Pedramfar

Modjtaba Shokrian Zini

Vaneet Aggarwal

339

30 Oct 2023

Posterior Sampling with Delayed Feedback for Reinforcement Learning with Linear Function ApproximationNeural Information Processing Systems (NeurIPS), 2023

Nikki Lijing Kuang

Ming Yin

Mengdi Wang

Yu Wang

Yian Ma

365

29 Oct 2023

Unsupervised Behavior Extraction via Random Intent PriorsNeural Information Processing Systems (NeurIPS), 2023

318

28 Oct 2023

A Doubly Robust Approach to Sparse Reinforcement LearningInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2023

Wonyoung Hedge Kim

Garud Iyengar

A. Zeevi

246

23 Oct 2023