Near-Optimal Reinforcement Learning with Self-Play

22 June 2020

Papers citing "Near-Optimal Reinforcement Learning with Self-Play"

50 / 56 papers shown

Title
Improving LLM General Preference Alignment via Optimistic Online Mirror Descent Yuheng Zhang Dian Yu Tao Ge Linfeng Song Zhichen Zeng Haitao Mi Nan Jiang Dong Yu 56 1 0 24 Feb 2025
Role Play: Learning Adaptive Role-Specific Strategies in Multi-Agent Interactions Weifan Long Wen Wen Peng Zhai Lihua Zhang 26 0 0 02 Nov 2024
Learning in Markov Games with Adaptive Adversaries: Policy Regret, Fundamental Barriers, and Efficient Algorithms Thanh Nguyen-Tang Raman Arora 74 1 0 01 Nov 2024
Improving Thompson Sampling via Information Relaxation for Budgeted Multi-armed Bandits Woojin Jeong Seungki Min 47 0 0 28 Aug 2024
Learning to Steer Markovian Agents under Model Uncertainty Jiawei Huang Vinzenz Thoma Zebang Shen H. Nax Niao He 29 2 0 14 Jul 2024
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning Yuheng Zhang Dian Yu Baolin Peng Linfeng Song Ye Tian Mingyue Huo Nan Jiang Haitao Mi Dong Yu 35 14 0 30 Jun 2024
Efficacy of Language Model Self-Play in Non-Zero-Sum Games Austen Liao Nicholas Tomlin Dan Klein 64 0 0 27 Jun 2024
Toward Optimal LLM Alignments Using Two-Player Games Rui Zheng Hongyi Guo Zhihan Liu Xiaoying Zhang Yuanshun Yao ... Tao Gui Qi Zhang Xuanjing Huang Hang Li Yang Liu 58 5 0 16 Jun 2024
Locally Interdependent Multi-Agent MDP: Theoretical Framework for Decentralized Agents with Dynamic Dependencies Alex DeWeese Guannan Qu 32 2 0 10 Jun 2024
Competing for pixels: a self-play algorithm for weakly-supervised segmentation Shaheer U. Saeed Shiqi Huang João Ramalhinho Iani J. M. B. Gayo Nina Montaña-Brown ... Stephen P. Pereira Brian R. Davidson D. Barratt Matthew J. Clarkson Yipeng Hu 63 0 0 26 May 2024
Taming Equilibrium Bias in Risk-Sensitive Multi-Agent Reinforcement Learning Yingjie Fei Ruitu Xu 33 0 0 04 May 2024
MF-OML: Online Mean-Field Reinforcement Learning with Occupation Measures for Large Population Games Anran Hu Junzi Zhang 28 5 0 01 May 2024
Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning Qiaosheng Zhang Chenjia Bai Shuyue Hu Zhen Wang Xuelong Li 37 1 0 30 Apr 2024
Differentially Private Reinforcement Learning with Self-Play Dan Qiao Yu-Xiang Wang 36 0 0 11 Apr 2024
DP-Dueling: Learning from Preference Feedback without Compromising User Privacy Aadirupa Saha Hilal Asi 36 1 0 22 Mar 2024
RL in Markov Games with Independent Function Approximation: Improved Sample Complexity Bound under the Local Access Model Junyi Fan Yuxuan Han Jialin Zeng Jian-Feng Cai Yang Wang Yang Xiang Jiheng Zhang 32 1 0 18 Mar 2024
Performative Reinforcement Learning in Gradually Shifting Environments Ben Rank Stelios Triantafyllou Debmalya Mandal Goran Radanović OffRL 27 6 0 15 Feb 2024
Refined Sample Complexity for Markov Games with Independent Linear Function Approximation Yan Dai Qiwen Cui S. S. Du 37 1 0 11 Feb 2024
Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL Jiawei Huang Niao He Andreas Krause 24 6 0 08 Feb 2024
$$\widetilde{O}(T^{-1})$ Convergence to (Coarse) Correlated Equilibria in Full-Information General-Sum Markov Games$ $\widetilde{O}(T^{-1})$ Convergence to (Coarse) Correlated Equilibria in Full-Information General-Sum Markov Games Weichao Mao Haoran Qiu Chen Wang Hubertus Franke Zbigniew T. Kalbarczyk Tamer Basar 28 0 0 02 Feb 2024
Near-Optimal Reinforcement Learning with Self-Play under Adaptivity Constraints Dan Qiao Yu-Xiang Wang OffRL 22 3 0 02 Feb 2024
Near-Optimal Policy Optimization for Correlated Equilibrium in General-Sum Markov Games Yang Cai Haipeng Luo Chen-Yu Wei Weiqiang Zheng 16 7 0 26 Jan 2024
Multi-Player Zero-Sum Markov Games with Networked Separable Interactions Chanwoo Park K. Zhang Asuman Ozdaglar 28 8 0 13 Jul 2023
Can We Find Nash Equilibria at a Linear Rate in Markov Games? Zhuoqing Song Jason D. Lee Zhuoran Yang 27 8 0 03 Mar 2023
Offline Learning in Markov Games with General Function Approximation Yuheng Zhang Yunru Bai Nan Jiang OffRL 13 8 0 06 Feb 2023
A Reduction-based Framework for Sequential Decision Making with Delayed Feedback Yunchang Yang Hangshi Zhong Tianhao Wu B. Liu Liwei Wang S. Du OffRL 27 8 0 03 Feb 2023
Provably Efficient Model-free RL in Leader-Follower MDP with Linear Function Approximation A. Ghosh 15 1 0 28 Nov 2022
A Self-Play Posterior Sampling Algorithm for Zero-Sum Markov Games Wei Xiong Han Zhong Chengshuai Shi Cong Shen Tong Zhang 58 18 0 04 Oct 2022
Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games Shicong Cen Yuejie Chi S. Du Lin Xiao 51 35 0 03 Oct 2022
Minimax-Optimal Multi-Agent RL in Markov Games With a Generative Model Gen Li Yuejie Chi Yuting Wei Yuxin Chen 28 18 0 22 Aug 2022
Regret Minimization and Convergence to Equilibria in General-sum Markov Games Liad Erez Tal Lancewicki Uri Sherman Tomer Koren Yishay Mansour 36 25 0 28 Jul 2022
Provably Efficient Fictitious Play Policy Optimization for Zero-Sum Markov Games with Structured Transitions Shuang Qiu Xiaohan Wei Jieping Ye Zhaoran Wang Zhuoran Yang OffRL 11 11 0 25 Jul 2022
A Deep Reinforcement Learning Approach for Finding Non-Exploitable Strategies in Two-Player Atari Games Zihan Ding DiJia Su Qinghua Liu Chi Jin 28 3 0 18 Jul 2022
Policy Optimization for Markov Games: Unified Framework and Faster Convergence Runyu Zhang Qinghua Liu Haiquan Wang Caiming Xiong Na Li Yu Bai 13 26 0 06 Jun 2022
Sample-Efficient Reinforcement Learning of Partially Observable Markov Games Qinghua Liu Csaba Szepesvári Chi Jin 24 20 0 02 Jun 2022
The Complexity of Markov Equilibrium in Stochastic Games C. Daskalakis Noah Golowich K. Zhang 36 57 0 08 Apr 2022
Learning Markov Games with Adversarial Opponents: Efficient Algorithms and Fundamental Limits Qinghua Liu Yuanhao Wang Chi Jin AAML 16 15 0 14 Mar 2022
Versatile Dueling Bandits: Best-of-both-World Analyses for Online Learning from Preferences Aadirupa Saha Pierre Gaillard 17 8 0 14 Feb 2022
Near-Optimal Learning of Extensive-Form Games with Imperfect Information Yunru Bai Chi Jin Song Mei Tiancheng Yu 21 26 0 03 Feb 2022
When is Offline Two-Player Zero-Sum Markov Game Solvable? Qiwen Cui S. Du OffRL 28 29 0 10 Jan 2022
Can Reinforcement Learning Find Stackelberg-Nash Equilibria in General-Sum Markov Games with Myopic Followers? Han Zhong Zhuoran Yang Zhaoran Wang Michael I. Jordan 24 30 0 27 Dec 2021
Finite-Sample Analysis of Decentralized Q-Learning for Stochastic Games Zuguang Gao Qianqian Ma Tamer Bacsar J. Birge OffRL 20 7 0 15 Dec 2021
Independent Learning in Stochastic Games Asuman Ozdaglar M. O. Sayin K. Zhang 16 22 0 23 Nov 2021
Dueling RL: Reinforcement Learning with Trajectory Preferences Aldo Pacchiano Aadirupa Saha Jonathan Lee 20 78 0 08 Nov 2021
On Improving Model-Free Algorithms for Decentralized Multi-Agent Reinforcement Learning Weichao Mao Lin F. Yang K. Zhang Tamer Bacsar 25 57 0 12 Oct 2021
Provably Efficient Reinforcement Learning in Decentralized General-Sum Markov Games Weichao Mao Tamer Basar 18 66 0 12 Oct 2021
Satisficing Paths and Independent Multi-Agent Reinforcement Learning in Stochastic Games Bora Yongacoglu Gürdal Arslan S. Yüksel 32 15 0 09 Oct 2021
When Can We Learn General-Sum Markov Games with a Large Number of Players Sample-Efficiently? Ziang Song Song Mei Yu Bai 72 67 0 08 Oct 2021
Towards General Function Approximation in Zero-Sum Markov Games Baihe Huang Jason D. Lee Zhaoran Wang Zhuoran Yang 25 47 0 30 Jul 2021
Strategically Efficient Exploration in Competitive Multi-agent Reinforcement Learning R. Loftin Aadirupa Saha Sam Devlin Katja Hofmann 14 5 0 30 Jul 2021