Variational Policy Gradient Method for Reinforcement Learning with General Utilities

4 July 2020

Papers citing "Variational Policy Gradient Method for Reinforcement Learning with General Utilities"

50 / 87 papers shown

Flow Density Control: Generative Optimization Beyond Entropy-Regularized Fine-Tuning

149

27 Nov 2025

On the Convergence of Policy Mirror Descent with Temporal Difference Evaluation

Jiacai Liu

Wenye Li

Ke Wei

219

23 Sep 2025

Policy Gradient with Self-Attention for Model-Free Distributed Nonlinear Multi-Agent Games

184

22 Sep 2025

Bayesian Risk-Sensitive Policy Optimization For MDPs With General Loss Functions

Xiaoshuang Wang

Yifan Lin

Enlu Zhou

220

19 Sep 2025

The Geometry of Nonlinear Reinforcement Learning

Nikola Milosevic

Nico Scherf

137

01 Sep 2025

Solving General-Utility Markov Decision Processes in the Single-Trial Regime with Online Planning

Pedro P. Santos

Alberto Sardinha

Francisco S. Melo

121

21 May 2025

Online Episodic Convex Reinforcement Learning

356

12 May 2025

Is there Value in Reinforcement Learning?

Lior Fox

Y. Loewenstein

OffRL

258

07 May 2025

Kernel-Based Function Approximation for Average Reward Reinforcement Learning: An Optimist No-Regret AlgorithmNeural Information Processing Systems (NeurIPS), 2024

Sattar Vakili

Julia Olkhovskaya

348

30 Oct 2024

Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward InferenceInternational Conference on Learning Representations (ICLR), 2024

Qining Zhang

Lei Ying

OffRL

565

25 Sep 2024

The Number of Trials Matters in Infinite-Horizon General-Utility Markov Decision Processes

Pedro P. Santos

Alberto Sardinha

Francisco S. Melo

202

23 Sep 2024

Geometric Active Exploration in Markov Decision Processes: the Benefit of Abstraction

Ric De Santi

Federico Arangath Joseph

272

18 Jul 2024

Global Reinforcement Learning: Beyond Linear and Convex Rewards via Submodular Semi-gradient Methods

Ric De Santi

Manish Prajapat

Andreas Krause

334

13 Jul 2024

MetaCURL: Non-stationary Concave Utility Reinforcement Learning

286

30 May 2024

Inverse Concave-Utility Reinforcement Learning is Inverse Game Theory

M. Çelikok

F. Oliehoek

Jan-Willem van de Meent

351

29 May 2024

A Dual Perspective of Reinforcement Learning for Imposing Policy Constraints

Bram De Cooman

Johan A. K. Suykens

350

25 Apr 2024

On the Global Convergence of Policy Gradient in Average Reward Markov Decision Processes

R. Srikant

228

11 Mar 2024

Taming Nonconvex Stochastic Mirror Descent with General Bregman Divergence

Ilyas Fatkhullin

Niao He

383

27 Feb 2024

Double Duality: Variational Primal-Dual Policy Optimization for Constrained Reinforcement Learning

Mengdi Wang

344

16 Feb 2024

MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences

Hui Yuan

Furong Huang

Mengdi Wang

235

14 Feb 2024

On the Limitations of Markovian Rewards to Express Multi-Objective, Risk-Sensitive, and Modal TasksConference on Uncertainty in Artificial Intelligence (UAI), 2024

Joar Skalse

Alessandro Abate

266

26 Jan 2024

On the Stochastic (Variance-Reduced) Proximal Gradient Method for Regularized Expected Reward Optimization

Ling Liang

Haizhao Yang

248

23 Jan 2024

Quantum Advantage Actor-Critic for Reinforcement LearningInternational Conference on Agents and Artificial Intelligence (ICAART), 2024

Claudia Linnhoff-Popien

306

13 Jan 2024

Global Convergence of Natural Policy Gradient with Hessian-aided Momentum Variance ReductionJournal of Scientific Computing (J. Sci. Comput.), 2024

Jie Feng

Ke Wei

Jinchi Chen

418

02 Jan 2024

Neural Network Approximation for Pessimistic Offline Reinforcement Learning

Yuling Jiao

310

19 Dec 2023

Efficient Model-Based Concave Utility Reinforcement Learning through Greedy Mirror DescentInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2023

304

30 Nov 2023

Stable In-hand Manipulation with Finger Specific Multi-agent Shadow Reward

Lingfeng Tao

Jiucai Zhang

Xiaoli Zhang

250

13 Sep 2023

Diversifying AI: Towards Creative Chess with AlphaZero

333

17 Aug 2023

Invex Programs: First Order Algorithms and Their Convergence

Adarsh Barik

S. Sra

Jean Honorio

264

10 Jul 2023

Active Coverage for PAC Reinforcement LearningAnnual Conference Computational Learning Theory (COLT), 2023

263

23 Jun 2023

A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement Learning with Provable Convergence

Kexuan Wang

An Liu

Baishuo Liu

202

10 Jun 2023

Reinforcement Learning with General Utilities: Simpler Variance Reduction and Large State-Action SpaceInternational Conference on Machine Learning (ICML), 2023

Anas Barakat

Ilyas Fatkhullin

Niao He

266

02 Jun 2023

On the Linear Convergence of Policy Gradient under Hadamard ParameterizationInformation and Inference A Journal of the IMA (JIII), 2023

Jiacai Liu

Jinchi Chen

Ke Wei

285

31 May 2023

Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with General UtilitiesNeural Information Processing Systems (NeurIPS), 2023

425

27 May 2023

Inverse Reinforcement Learning with the Average Reward CriterionNeural Information Processing Systems (NeurIPS), 2023

Feiyang Wu

Jingyang Ke

Anqi Wu

423

24 May 2023

A Coupled Flow Approach to Imitation LearningInternational Conference on Machine Learning (ICML), 2023

238

29 Apr 2023

What can online reinforcement learning with function approximation benefit from general coverage conditions?International Conference on Machine Learning (ICML), 2023

344

25 Apr 2023

Policy Gradient Converges to the Globally Optimal Policy for Nearly Linear-Quadratic RegulatorsSIAM Journal of Control and Optimization (SICON), 2023

Yin-Huan Han

Meisam Razaviyayn

Renyuan Xu

506

15 Mar 2023

n-Step Temporal Difference Learning with Optimal n

Lakshmi Mandal

S. Bhatnagar

465

13 Mar 2023

Deep Reinforcement Learning for Cost-Effective Medical DiagnosisInternational Conference on Learning Representations (ICLR), 2023

Mengdi Wang

382

20 Feb 2023

Scalable Multi-Agent Reinforcement Learning with General UtilitiesAmerican Control Conference (ACC), 2023

278

15 Feb 2023

Provably Efficient Offline Goal-Conditioned Reinforcement Learning with General Function Approximation and Single-Policy ConcentrabilityNeural Information Processing Systems (NeurIPS), 2023

Hanlin Zhu

Amy Zhang

OffRL

370

07 Feb 2023

Stochastic Policy Gradient Methods: Improved Sample Complexity for Fisher-non-degenerate PoliciesInternational Conference on Machine Learning (ICML), 2023

464

03 Feb 2023

A Novel Framework for Policy Mirror Descent with General Parameterization and Linear ConvergenceNeural Information Processing Systems (NeurIPS), 2023

Carlo Alfano

Rui Yuan

Patrick Rebeschini

673

30 Jan 2023

Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2023

566

30 Jan 2023

Optimal Conservative Offline RL with General Function Approximation via Augmented LagrangianInternational Conference on Learning Representations (ICLR), 2022

475

01 Nov 2022

Proximal Mean Field Learning in Shallow Neural Networks

316

25 Oct 2022

Policy Gradient for Reinforcement Learning with General Utilities

119

03 Oct 2022

On the convex formulations of robust Markov decision processesMathematics of Operations Research (MOR), 2022

Julien Grand-Clément

Marek Petrik

315

21 Sep 2022

Cross apprenticeship learning framework: Properties and solution approaches

A. Aravind

Debasish Chatterjee

A. Cherukuri

219

06 Sep 2022