v1v2 (latest)

On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method

Neural Information Processing Systems (NeurIPS), 2021

17 February 2021

Mengdi Wang

Papers citing "On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method"

47 / 47 papers shown

Bayesian Risk-Sensitive Policy Optimization For MDPs With General Loss Functions

Xiaoshuang Wang

Yifan Lin

Enlu Zhou

176

19 Sep 2025

Online Episodic Convex Reinforcement Learning

331

12 May 2025

Robo-taxi Fleet Coordination at Scale via Reinforcement Learning

398

08 Apr 2025

Enhancing PPO with Trajectory-Aware Hybrid Policies

294

21 Feb 2025

Small steps no more: Global convergence of stochastic gradient bandits for arbitrary learning ratesNeural Information Processing Systems (NeurIPS), 2025

374

11 Feb 2025

Transformer-based Model Predictive Control: Trajectory Optimization via Sequence ModelingIEEE Robotics and Automation Letters (RA-L), 2024

295

31 Oct 2024

From Gradient Clipping to Normalization for Heavy Tailed SGDInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

Florian Hübler

Ilyas Fatkhullin

Niao He

453

17 Oct 2024

Last-Iterate Convergence of General Parameterized Policies in Constrained MDPs

Washim Uddin Mondal

Vaneet Aggarwal

310

21 Aug 2024

MetaCURL: Non-stationary Concave Utility Reinforcement Learning

266

30 May 2024

Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent BaselineIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2024

Qian Zheng

Gang Pan

238

04 May 2024

Global Convergence Guarantees for Federated Policy Gradient Methods with Adversaries

353

15 Mar 2024

Taming Nonconvex Stochastic Mirror Descent with General Bregman Divergence

Ilyas Fatkhullin

Niao He

321

27 Feb 2024

Stochastic Gradient Succeeds for Bandits

267

27 Feb 2024

MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences

Hui Yuan

Furong Huang

Mengdi Wang

219

14 Feb 2024

On the Stochastic (Variance-Reduced) Proximal Gradient Method for Regularized Expected Reward Optimization

Ling Liang

Haizhao Yang

213

23 Jan 2024

Global Convergence of Natural Policy Gradient with Hessian-aided Momentum Variance ReductionJournal of Scientific Computing (J. Sci. Comput.), 2024

Jie Feng

Ke Wei

Jinchi Chen

390

02 Jan 2024

Efficiently Escaping Saddle Points for Policy OptimizationConference on Uncertainty in Artificial Intelligence (UAI), 2023

Matthias Grossglauser

284

15 Nov 2023

Improved Sample Complexity Analysis of Natural Policy Gradient Algorithm with General Parameterization for Infinite Horizon Discounted Reward Markov Decision ProcessesInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2023

Washim Uddin Mondal

Vaneet Aggarwal

282

18 Oct 2023

Regret Analysis of Policy Gradient Algorithm for Infinite Horizon Average Reward Markov Decision ProcessesAAAI Conference on Artificial Intelligence (AAAI), 2023

Qinbo Bai

Washim Uddin Mondal

Vaneet Aggarwal

349

05 Sep 2023

An Adaptive Optimization Approach to Personalized Financial Incentives in Mobile Behavioral Weight Loss Interventions

236

01 Jul 2023

Reinforcement Learning with General Utilities: Simpler Variance Reduction and Large State-Action SpaceInternational Conference on Machine Learning (ICML), 2023

Anas Barakat

Ilyas Fatkhullin

Niao He

240

02 Jun 2023

Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with General UtilitiesNeural Information Processing Systems (NeurIPS), 2023

387

27 May 2023

Regret-Optimal Model-Free Reinforcement Learning for Discounted MDPs with Short Burn-In TimeNeural Information Processing Systems (NeurIPS), 2023

Xiang Ji

Gen Li

OffRL

391

24 May 2023

Instruction Tuned Models are Quick Learners

298

17 May 2023

Scalable Multi-Agent Reinforcement Learning with General UtilitiesAmerican Control Conference (ACC), 2023

250

15 Feb 2023

Stochastic Policy Gradient Methods: Improved Sample Complexity for Fisher-non-degenerate PoliciesInternational Conference on Machine Learning (ICML), 2023

439

03 Feb 2023

A Novel Framework for Policy Mirror Descent with General Parameterization and Linear ConvergenceNeural Information Processing Systems (NeurIPS), 2023

Carlo Alfano

Rui Yuan

Patrick Rebeschini

632

30 Jan 2023

Stochastic Dimension-reduced Second-order Methods for Policy Optimization

Dongdong Ge

126

28 Jan 2023

The Role of Baselines in Policy Gradient OptimizationNeural Information Processing Systems (NeurIPS), 2023

280

16 Jan 2023

Variance-Reduced Conservative Policy IterationInternational Conference on Algorithmic Learning Theory (ALT), 2022

Naman Agarwal

Brian Bullins

Karan Singh

219

12 Dec 2022

SoftTreeMax: Policy Gradient with Tree Search

Gal Dalal

Assaf Hallak

Shie Mannor

Gal Chechik

168

28 Sep 2022

On the Reuse Bias in Off-Policy Reinforcement LearningInternational Joint Conference on Artificial Intelligence (IJCAI), 2022

Hang Su

Jun Zhu

237

15 Sep 2022

Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Conservative Natural Policy Gradient Primal-Dual AlgorithmAAAI Conference on Artificial Intelligence (AAAI), 2022

Qinbo Bai

Amrit Singh Bedi

Vaneet Aggarwal

268

12 Jun 2022

Stochastic Second-Order Methods Improve Best-Known Sample Complexity of SGD for Gradient-Dominated FunctionNeural Information Processing Systems (NeurIPS), 2022

357

25 May 2022

Momentum-Based Policy Gradient with Second-Order Information

320

17 May 2022

PAGE-PG: A Simple and Loopless Variance-Reduced Policy Gradient Method with Probabilistic Gradient EstimationInternational Conference on Machine Learning (ICML), 2022

168

01 Feb 2022

Optimal Estimation of Off-Policy Policy Gradient via Double Fitted Iteration

358

31 Jan 2022

MDPGT: Momentum-based Decentralized Policy Gradient TrackingAAAI Conference on Artificial Intelligence (AAAI), 2021

Aditya Balu

205

06 Dec 2021

Convergence and Optimality of Policy Gradient Methods in Weakly Smooth SettingsAAAI Conference on Artificial Intelligence (AAAI), 2021

Matthew Shunshi Zhang

Murat A. Erdogdu

Animesh Garg

417

30 Oct 2021

Understanding the Effect of Stochasticity in Policy OptimizationNeural Information Processing Systems (NeurIPS), 2021

255

29 Oct 2021

Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization

471

19 Oct 2021

On the Global Optimum Convergence of Momentum-based Policy Gradient

Yuhao Ding

Junzi Zhang

Javad Lavaei

365

19 Oct 2021

Concave Utility Reinforcement Learning with Zero-Constraint Violations

Mridul Agarwal

Qinbo Bai

Vaneet Aggarwal

374

12 Sep 2021

A general sample complexity analysis of vanilla policy gradientInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2021

Rui Yuan

Robert Mansel Gower

A. Lazaric

487

23 Jul 2021

Bregman Gradient Policy Optimization

Feihu Huang

Shangqian Gao

Heng-Chiao Huang

480

23 Jun 2021

Joint Optimization of Multi-Objective Reinforcement Learning with Policy Gradient Based AlgorithmJournal of Artificial Intelligence Research (JAIR), 2021

Qinbo Bai

Mridul Agarwal

Vaneet Aggarwal

130

28 May 2021

Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear ConvergenceSIAM Journal on Optimization (SIAM J. Optim.), 2021

393

24 May 2021