Continuously Discovering Novel Strategies via Reward-Switching Policy Optimization

4 April 2022

Papers citing "Continuously Discovering Novel Strategies via Reward-Switching Policy Optimization"

22 / 22 papers shown

Title
Do's and Don'ts: Learning Desirable Skills with Instruction Videos Hyunseung Kim ByungKun Lee Hojoon Lee Dongyoon Hwang Donghu Kim Jaegul Choo 37 1 0 01 Jun 2024
Phasic Diversity Optimization for Population-Based Reinforcement Learning Jingcheng Jiang Haiyin Piao Yu Fu Yihang Hao Chuanlu Jiang Ziqi Wei Xin Yang 25 0 0 17 Mar 2024
Iteratively Learn Diverse Strategies with State Distance Information Wei Fu Weihua Du Jingwei Li Sunli Chen Jingzhao Zhang Yi Wu 48 3 0 23 Oct 2023
Keep Various Trajectories: Promoting Exploration of Ensemble Policies in Continuous Control Chao Li Chen Gong Qiang He Xinwen Hou 25 0 0 17 Oct 2023
Diversity for Contingency: Learning Diverse Behaviors for Efficient Adaptation and Transfer Finn Rietz J. A. Stork 31 0 0 11 Oct 2023
Diverse Policies Converge in Reward-free Markov Decision Processe Fanqing Lin Shiyu Huang Weiwei Tu 21 0 0 23 Aug 2023
Learning Diverse Risk Preferences in Population-based Self-play Y. Jiang Qihan Liu Xiaoteng Ma Chenghao Li Yiqin Yang Jun Yang Bin Liang Qianchuan Zhao 52 3 0 19 May 2023
Communication-Robust Multi-Agent Learning by Adaptable Auxiliary Multi-Agent Adversary Generation Lei Yuan F. Chen Zhongzhan Zhang Yang Yu AAML 44 10 0 09 May 2023
Learning Adaptable Risk-Sensitive Policies to Coordinate in Multi-Agent General-Sum Games Ziyi Liu Yongchun Fang 22 1 0 14 Mar 2023
Policy Dispersion in Non-Markovian Environment B. Qu Xiaofeng Cao Jielong Yang Hechang Chen Chang Yi Ivor W.Tsang Yew-Soon Ong 9 0 0 28 Feb 2023
Diverse Policy Optimization for Structured Action Space Wenhao Li Baoxiang Wang Shanchao Yang H. Zha OffRL 24 1 0 23 Feb 2023
Learning Zero-Shot Cooperation with Humans, Assuming Humans Are Biased Chao Yu Jiaxuan Gao Weiling Liu Bo Xu Hao Tang Jiaqi Yang Yu Wang Yi Wu 29 38 0 03 Feb 2023
Learning General World Models in a Handful of Reward-Free Deployments Yingchen Xu Jack Parker-Holder Aldo Pacchiano Philip J. Ball Oleh Rybkin Stephen J. Roberts Tim Rocktaschel Edward Grefenstette OffRL 55 8 0 23 Oct 2022
Neuroevolution is a Competitive Alternative to Reinforcement Learning for Skill Discovery Félix Chalumeau Raphael Boige Bryan Lim Valentin Macé Maxime Allard Arthur Flajolet Antoine Cully Thomas Pierrot 24 21 0 06 Oct 2022
Open-Ended Diverse Solution Discovery with Regulated Behavior Patterns for Cross-Domain Adaptation Kang Xu Yan Ma Bingsheng Wei Wei Li 27 3 0 24 Sep 2022
Diversifying Message Aggregation in Multi-Agent Communication via Normalized Tensor Nuclear Norm Regularization Yuanzhao Zhai Kele Xu Bo Ding Dawei Feng Zijian Gao Huaimin Wang 21 0 0 10 Aug 2022
DGPO: Discovering Multiple Strategies with Diversity-Guided Policy Optimization Wenze Chen Shiyu Huang Yuan Chiang Tim Pearce Wei-Wei Tu Tingling Chen Jun Zhu 21 5 0 12 Jul 2022
Beyond Rewards: a Hierarchical Perspective on Offline Multiagent Behavioral Analysis Shayegan Omidshafiei A. Kapishnikov Yannick Assogba Lucas Dixon Been Kim OffRL 33 5 0 17 Jun 2022
Revisiting Some Common Practices in Cooperative Multi-Agent Reinforcement Learning Wei Fu Chao Yu Zelai Xu Jiaqi Yang Yi Wu 32 32 0 15 Jun 2022
Learning Generalizable Risk-Sensitive Policies to Coordinate in Decentralized Multi-Agent General-Sum Games Ziyi Liu Xian Guo Yongchun Fang 18 0 0 31 May 2022
MAVEN: Multi-Agent Variational Exploration Anuj Mahajan Tabish Rashid Mikayel Samvelyan Shimon Whiteson DRL 135 355 0 16 Oct 2019
Deep Reinforcement Learning for Dialogue Generation Jiwei Li Will Monroe Alan Ritter Michel Galley Jianfeng Gao Dan Jurafsky 214 1,327 0 05 Jun 2016