Deep Reinforcement Learning in Large Discrete Action Spaces

24 December 2015

Papers citing "Deep Reinforcement Learning in Large Discrete Action Spaces"

50 / 83 papers shown

Title
Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning Hao Peng Xiang Huang Shuo Sun Ruitong Zhang Philip S. Yu 48 0 0 07 May 2025
Q-function Decomposition with Intervention Semantics with Factored Action Spaces Junkyu Lee Tian Gao Elliot Nelson Miao Liu D. Bhattacharjya Songtao Lu OffRL 45 0 0 30 Apr 2025
Self-Balancing, Memory Efficient, Dynamic Metric Space Data Maintenance, for Rapid Multi-Kernel Estimation Aditya S Ellendula Chandrajit Bajaj 22 0 0 25 Apr 2025
An Efficient Approach for Cooperative Multi-Agent Learning Problems Ángel Aso-Mollar Eva Onaindia 26 0 0 07 Apr 2025
Reinforcement learning with combinatorial actions for coupled restless bandits Lily Xu Bryan Wilder Elias B. Khalil Milind Tambe 75 1 0 01 Mar 2025
Reducing Action Space for Deep Reinforcement Learning via Causal Effect Estimation Wenzhang Liu Lianjun Jin Lu Ren Chaoxu Mu Changyin Sun CML 50 0 0 24 Jan 2025
Generative Flows on Synthetic Pathway for Drug Design Seonghwan Seo Minsu Kim Tony Shen Martin Ester Jinkyoo Park Sungsoo Ahn Woo Youn Kim 45 3 0 06 Oct 2024
Grounding Multimodal Large Language Models in Actions Andrew Szot Bogdan Mazoure Harsh Agrawal Devon Hjelm Z. Kira Alexander Toshev LM&Ro 35 10 0 12 Jun 2024
Graph Reinforcement Learning for Combinatorial Optimization: A Survey and Unifying Perspective Victor-Alexandru Darvariu Stephen Hailes Mirco Musolesi AI4CE 50 6 0 09 Apr 2024
Combinatorial Client-Master Multiagent Deep Reinforcement Learning for Task Offloading in Mobile Edge Computing Zemuy Tesfay Gebrekidan Sebastian Stein Timothy J. Norman 28 4 0 18 Feb 2024
UOEP: User-Oriented Exploration Policy for Enhancing Long-Term User Experiences in Recommender Systems Changshuo Zhang Sirui Chen Xiao Zhang Sunhao Dai Weijie Yu Jun Xu OffRL 35 1 0 17 Jan 2024
In-Context Reinforcement Learning for Variable Action Spaces Viacheslav Sinii Alexander Nikulin Vladislav Kurenkov Ilya Zisman Sergey Kolesnikov 24 14 0 20 Dec 2023
UnifiedGesture: A Unified Gesture Synthesis Model for Multiple Skeletons Sicheng Yang Zehao Wang Zhiyong Wu Minglei Li Zhensong Zhang ... Lei Hao Songcen Xu Xiaofei Wu Changpeng Yang Zonghong Dai DiffM 49 14 0 13 Sep 2023
AutoAssign+: Automatic Shared Embedding Assignment in Streaming Recommendation Ziru Liu Kecheng Chen Fengyi Song Bo Chen Xiangyu Zhao Huifeng Guo Ruiming Tang 18 3 0 14 Aug 2023
Policy Gradient Methods in the Presence of Symmetries and State Abstractions Prakash Panangaden S. Rezaei-Shoshtari Rosie Zhao D. Meger Doina Precup 27 2 0 09 May 2023
Two-Stage Constrained Actor-Critic for Short Video Recommendation Qingpeng Cai Zhenghai Xue Chi Zhang Wanqi Xue Shuchang Liu ... Tianyou Zuo Wentao Xie Dong Zheng Peng Jiang Kun Gai OffRL CML 24 44 0 03 Feb 2023
Generative Slate Recommendation with Reinforcement Learning Romain Deffayet Thibaut Thonet Jean-Michel Render Maarten de Rijke 27 23 0 20 Jan 2023
Representation Learning for Continuous Action Spaces is Beneficial for Efficient Policy Learning Tingting Zhao Ying Wang Weidong Sun Yarui Chen Gang Niu Masashi Sugiyama 19 1 0 23 Nov 2022
Decentralized Federated Reinforcement Learning for User-Centric Dynamic TFDD Control Ziyan Yin Zhe Wang Jun Li Ming Ding Wen Chen Shi Jin 38 13 0 04 Nov 2022
Reward Shaping for User Satisfaction in a REINFORCE Recommender Konstantina Christakopoulou Can Xu Sai Zhang Sriraj Badam Trevor Potter ... Ya Le Chris Berg E. B. Dixon Ed H. Chi Minmin Chen OffRL 9 8 0 30 Sep 2022
MAN: Multi-Action Networks Learning Keqin Wang Alison Bartsch A. Farimani 21 3 0 19 Sep 2022
Selective Token Generation for Few-shot Natural Language Generation DaeJin Jo Taehwan Kwon Eun-Sol Kim Sungwoong Kim 35 1 0 17 Sep 2022
Continuous MDP Homomorphisms and Homomorphic Policy Gradient S. Rezaei-Shoshtari Rosie Zhao Prakash Panangaden D. Meger Doina Precup 33 18 0 15 Sep 2022
Multi-Step Prediction in Linearized Latent State Spaces for Representation Learning A. Tytarenko BDL 32 1 0 02 Sep 2022
Multi-Task Fusion via Reinforcement Learning for Long-Term User Satisfaction in Recommender Systems Qihua Zhang Junning Liu Yuzhuo Dai Yiyan Qi Yifan Yuan Kunlun Zheng Fan Huang Xianfeng Tan OffRL 29 50 0 09 Aug 2022
Automating DBSCAN via Deep Reinforcement Learning Ruitong Zhang Hao Peng Yingtong Dou Jia Wu Qingyun Sun Jingyi Zhang Philip S. Yu OffRL 13 19 0 09 Aug 2022
Fast Offline Policy Optimization for Large Scale Recommendation Otmane Sakhi D. Rohde Alexandre Gilotte OffRL 42 3 0 08 Aug 2022
Smart caching in a Data Lake for High Energy Physics analysis Tommaso Tedeschi D. Ciangottini M. Baioletti V. Poggioni D. Spiga L. Storchi M. Tracolli 22 2 0 02 Aug 2022
Reinforcement Learning of Multi-Domain Dialog Policies Via Action Embeddings Jorge Armando Mendez Mendez Alborz Geramifard Mohammad Ghavamzadeh Bing-Quan Liu OffRL 27 6 0 01 Jul 2022
ResAct: Reinforcing Long-term Engagement in Sequential Recommendation with Residual Actor Wanqi Xue Qingpeng Cai Ruohan Zhan Dong Zheng Peng Jiang Kun Gai Bo An OffRL 30 24 0 01 Jun 2022
DEP-RL: Embodied Exploration for Reinforcement Learning in Overactuated and Musculoskeletal Systems Pierre Schumacher Daniel Haeufle Le Chen Syn Schmitt Georg Martius 23 31 0 30 May 2022
Analytics of Business Time Series Using Machine Learning and Bayesian Inference B. Pavlyshenko BDL AI4TS 33 2 0 25 May 2022
Asking for Knowledge: Training RL Agents to Query External Knowledge Using Language Iou-Jen Liu Xingdi Yuan Marc-Alexandre Côté Pierre-Yves Oudeyer A. Schwing RALM 19 12 0 12 May 2022
Pervasive Machine Learning for Smart Radio Environments Enabled by Reconfigurable Intelligent Surfaces G. C. Alexandropoulos Kyriakos Stylianopoulos Chongwen Huang Chau Yuen M. Bennis Mérouane Debbah 25 87 0 08 May 2022
A Practical AoI Scheduler in IoT Networks with Relays Biplav Choudhury Prasenjit Karmakar Vijay K. Shah Jeffrey H. Reed 11 1 0 08 Mar 2022
Knowledge Transfer in Deep Reinforcement Learning for Slice-Aware Mobility Robustness Optimization Qi Liao Tianlun Hu D. Wellington 16 3 0 07 Mar 2022
Distributional Reinforcement Learning for Scheduling of Chemical Production Processes M. Mowbray Dongda Zhang Ehecatl Antonio del Rio Chanona OffRL 25 6 0 01 Mar 2022
SAFER: Data-Efficient and Safe Reinforcement Learning via Skill Acquisition Dylan Slack Yinlam Chow Bo Dai Nevan Wichers OffRL 27 7 0 10 Feb 2022
Active Learning of Quantum System Hamiltonians yields Query Advantage Arko Dutt E. Pednault C. Wu S. Sheldon J. Smolin L. Bishop I. Chuang 16 11 0 29 Dec 2021
Double Critic Deep Reinforcement Learning for Mapless 3D Navigation of Unmanned Aerial Vehicles Ricardo B. Grando J. C. Jesus V. A. Kich A. H. Kolling P. Drews 30 34 0 27 Dec 2021
Learning Large Neighborhood Search Policy for Integer Programming Yaoxin Wu Wen Song Zhiguang Cao Jie Zhang 27 41 0 01 Nov 2021
D2RLIR : an improved and diversified ranking function in interactive recommendation systems based on deep reinforcement learning Vahid Baghi Seyed Mohammad Seyed Motehayeri A. Moeini R. Abedian 15 1 0 28 Oct 2021
Continuous Control with Action Quantization from Demonstrations Robert Dadashi Léonard Hussenot Damien Vincent Sertan Girgin Anton Raichuk M. Geist Olivier Pietquin OffRL 33 23 0 19 Oct 2021
Value Penalized Q-Learning for Recommender Systems Chengqian Gao Ke Xu Kuangqi Zhou Lanqing Li Xueqian Wang Bo Yuan P. Zhao OffRL 54 20 0 15 Oct 2021
NeurWIN: Neural Whittle Index Network For Restless Bandits Via Deep RL Khaled Nakhleh Santosh Ganji Ping-Chun Hsieh I.-Hong Hou S. Shakkottai 61 38 0 05 Oct 2021
Reinforcement Learning for Quantitative Trading Shuo Sun R. Wang Bo An OffRL AIFin 18 51 0 28 Sep 2021
Deep hierarchical reinforcement agents for automated penetration testing Khuong Tran Ashlesha Akella Maxwell Standen Junae Kim David Bowman Toby J. Richer Chin-Teng Lin Institution One 46 38 0 14 Sep 2021
Evaluating the progress of Deep Reinforcement Learning in the real world: aligning domain-agnostic and domain-specific research J. Luis E. Crawley B. Cameron OffRL 25 6 0 07 Jul 2021
Low-Dimensional State and Action Representation Learning with MDP Homomorphism Metrics N. Botteghi M. Poel B. Sirmaçek C. Brune 24 3 0 04 Jul 2021
Planning Spatial Networks with Monte Carlo Tree Search Victor-Alexandru Darvariu Stephen Hailes Mirco Musolesi 27 7 0 12 Jun 2021