Offline Reinforcement Learning as One Big Sequence Modeling Problem

3 June 2021

Papers citing "Offline Reinforcement Learning as One Big Sequence Modeling Problem"

50 / 465 papers shown

Title
Trajeglish: Traffic Modeling as Next-Token Prediction Jonah Philion Xue Bin Peng Sanja Fidler 15 20 0 07 Dec 2023
FoMo Rewards: Can we cast foundation models as reward functions? Ekdeep Singh Lubana Johann Brehmer P. D. Haan Taco S. Cohen OffRL LRM 38 2 0 06 Dec 2023
Generalization to New Sequential Decision Making Tasks with In-Context Learning Sharath Chandra Raparthy Eric Hambro Robert Kirk Mikael Henaff Roberta Raileanu OffRL 103 21 0 06 Dec 2023
Diffused Task-Agnostic Milestone Planner Mineui Hong Minjae Kang Songhwai Oh 21 6 0 06 Dec 2023
H-GAP: Humanoid Control with a Generalist Planner Zhengyao Jiang Yingchen Xu Nolan Wagener Yicheng Luo Michael Janner Edward Grefenstette Tim Rocktaschel Yuandong Tian AI4CE 16 5 0 05 Dec 2023
Mitigating Over-smoothing in Transformers via Regularized Nonlocal Functionals Tam Nguyen Tan-Minh Nguyen Richard G. Baraniuk 21 8 0 01 Dec 2023
Guided Flows for Generative Modeling and Decision Making Qinqing Zheng Matt Le Neta Shaul Y. Lipman Aditya Grover Ricky T. Q. Chen 24 35 0 22 Nov 2023
Language Model-In-The-Loop: Data Optimal Approach to Learn-To-Recommend Actions in Text Games Arjun Vaithilingam Sudhakar Prasanna Parthasarathi Janarthanan Rajendran Sarath Chandar 12 3 0 13 Nov 2023
Bridging the Sim-to-Real Gap with Dynamic Compliance Tuning for Industrial Insertion Xiang Zhang Masayoshi Tomizuka Hui Li 37 12 0 13 Nov 2023
Large Language Models for Robotics: A Survey Fanlong Zeng Wensheng Gan Yongheng Wang Ning Liu Philip S. Yu LM&Ro 116 125 0 13 Nov 2023
Unified machine learning tasks and datasets for enhancing renewable energy Arsam Aryandoust Thomas Rigoni Francesco di Stefano Anthony Patt 35 0 0 12 Nov 2023
AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline Multi-Agent RL via Alternating Stationary Distribution Correction Estimation Daiki E. Matsunaga Jongmin Lee Jaeseok Yoon Stefanos Leonardos Pieter Abbeel Kee-Eung Kim OODD OffRL 22 3 0 03 Nov 2023
Emergence of Abstract State Representations in Embodied Sequence Modeling Tian Yun Zilai Zeng Kunal Handa Ashish V. Thapliyal Bo Pang Ellie Pavlick Chen Sun LM&Ro 27 7 0 03 Nov 2023
The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from Human Feedback Nathan Lambert Roberto Calandra ALM 18 31 0 31 Oct 2023
Safety-aware Causal Representation for Trustworthy Offline Reinforcement Learning in Autonomous Driving Hao-ming Lin Wenhao Ding Zuxin Liu Yaru Niu Jiacheng Zhu Yuming Niu Ding Zhao OffRL 28 11 0 31 Oct 2023
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning Ruizhe Shi Yuyao Liu Yanjie Ze Simon S. Du Huazhe Xu OffRL RALM 26 18 0 31 Oct 2023
A Tractable Inference Perspective of Offline RL Xuejie Liu Anji Liu Guy Van den Broeck Yitao Liang OffRL 34 1 0 31 Oct 2023
GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models Mianchu Wang Rui Yang Xi Chen Hao Sun Meng Fang Giovanni Montana OffRL 28 9 0 30 Oct 2023
Remember what you did so you know what to do next Manuel R. Ciosici Alex Hedges Yash Kankanampati Justin Martin Marjorie Freedman R. Weischedel LM&Ro 17 0 0 30 Oct 2023
HyPE: Attention with Hyperbolic Biases for Relative Positional Encoding Giorgio Angelotti 8 0 0 30 Oct 2023
Large Trajectory Models are Scalable Motion Predictors and Planners Q. Sun Shiduo Zhang Danjiao Ma Jingzhe Shi Derun Li Simian Luo Yu Wang Ningyi Xu Guangzhi Cao Hang Zhao 19 13 0 30 Oct 2023
Refining Diffusion Planner for Reliable Behavior Synthesis by Automatic Detection of Infeasible Plans Kyowoon Lee Seongun Kim Jaesik Choi DiffM 19 9 0 30 Oct 2023
Socially Cognizant Robotics for a Technology Enhanced Society Kristin J. Dana Clinton Andrews Kostas Bekris Jacob Feldman Matthew Stone Pernille Hemmer Aaron Mazzeo Hal Salzman Jingang Yi 13 0 0 27 Oct 2023
Transformers for Trajectory Optimization with Application to Spacecraft Rendezvous T. Guffanti Daniele Gammelli Simone DÁmico Marco Pavone 32 14 0 20 Oct 2023
Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning and Autoregression Adam Block Dylan J. Foster Akshay Krishnamurthy Max Simchowitz Cyril Zhang 23 4 0 17 Oct 2023
Zero-Shot Robotic Manipulation with Pretrained Image-Editing Diffusion Models Kevin Black Mitsuhiko Nakamoto P. Atreya Homer Walke Chelsea Finn Aviral Kumar Sergey Levine DiffM LM&Ro 24 132 0 16 Oct 2023
LL-VQ-VAE: Learnable Lattice Vector-Quantization For Efficient Representations Ahmed Khalil Robert Piechocki Raúl Santos-Rodríguez 15 2 0 13 Oct 2023
Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining Licong Lin Yu Bai Song Mei OffRL 30 42 0 12 Oct 2023
Cross-Episodic Curriculum for Transformer Agents Lucy Xiaoyang Shi Yunfan Jiang Jake Grigsby Linxi "Jim" Fan Yuke Zhu 22 4 0 12 Oct 2023
Reward-Consistent Dynamics Models are Strongly Generalizable for Offline Reinforcement Learning Fan Luo Tian Xu Xingchen Cao Yang Yu OffRL 22 7 0 09 Oct 2023
In-Context Convergence of Transformers Yu Huang Yuan-Chia Cheng Yingbin Liang MLT 35 59 0 08 Oct 2023
GEAR: A GPU-Centric Experience Replay System for Large Reinforcement Learning Models Hanjing Wang Man-Kit Sit Cong He Ying Wen Weinan Zhang J. Wang Yaodong Yang Luo Mai OffRL VLM 27 1 0 08 Oct 2023
Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL Yang Yue Rui Lu Bingyi Kang Shiji Song Gao Huang OffRL 27 16 0 06 Oct 2023
Self-Confirming Transformer for Belief-Conditioned Adaptation in Offline Multi-Agent Reinforcement Learning Tao Li Juan Guevara Xinghong Xie Quanyan Zhu OffRL 34 1 0 06 Oct 2023
Learning and reusing primitive behaviours to improve Hindsight Experience Replay sample efficiency Francisco Roldan Sanchez Qiang Wang David Córdova Bulens Kevin McGuinness Stephen J. Redmond Noel E. O'Connor OffRL OnRL 13 1 0 03 Oct 2023
GRID: A Platform for General Robot Intelligence Development Sai H. Vemprala Shuhang Chen Abhinav Shukla Dinesh Narayanan Ashish Kapoor 19 10 0 02 Oct 2023
Pre-training with Synthetic Data Helps Offline Reinforcement Learning Zecheng Wang Che Wang Zixuan Dong Keith Ross OffRL 24 5 0 01 Oct 2023
Efficient Planning with Latent Diffusion Wenhao Li DiffM 38 4 0 30 Sep 2023
GAIA-1: A Generative World Model for Autonomous Driving Masane Fuchi Lloyd Russell Hudson Yeo Zak Murez Hiroto Minami Alex Kendall Tomohiro Takagi Gianluca Corrado VGen 28 215 0 29 Sep 2023
Uncertainty-Aware Decision Transformer for Stochastic Driving Environments Zenan Li Fan Nie Q. Sun Fang Da Hang Zhao OffRL 23 3 0 28 Sep 2023
Zero-Shot Reinforcement Learning from Low Quality Data Scott Jeen Tom Bewley Jonathan M. Cullen OffRL OnRL 34 0 0 26 Sep 2023
Efficient Avoidance of Vulnerabilities in Auto-completed Smart Contract Code Using Vulnerability-constrained Decoding André Storhaug Jingyue Li Tianyuan Hu AAML 26 14 0 18 Sep 2023
Compositional Foundation Models for Hierarchical Planning Anurag Ajay Seung-Jun Han Yilun Du Shaung Li Abhi Gupta Tommi Jaakkola Josh Tenenbaum L. Kaelbling Akash Srivastava Pulkit Agrawal LRM 22 65 0 15 Sep 2023
Reasoning with Latent Diffusion in Offline Reinforcement Learning S. Venkatraman Shivesh Khaitan Ravi Tej Akella John M. Dolan Jeff Schneider Glen Berseth OffRL 17 22 0 12 Sep 2023
Subwords as Skills: Tokenization for Sparse-Reward Reinforcement Learning David Yunis Justin Jung Falcon Z. Dai Matthew R. Walter OffRL 35 0 0 08 Sep 2023
Transformers as Support Vector Machines Davoud Ataee Tarzanagh Yingcong Li Christos Thrampoulidis Samet Oymak 35 43 0 31 Aug 2023
Multi-Objective Decision Transformers for Offline Reinforcement Learning Abdelghani Ghanem P. Ciblat Mounir Ghogho OffRL 27 1 0 31 Aug 2023
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning Hanhan Zhou Tian-Shing Lan Vaneet Aggarwal OffRL 27 4 0 28 Aug 2023
Rule-Based Error Detection and Correction to Operationalize Movement Trajectory Classification B. Xi Kevin Scaria Paulo Shakarian Paulo Shakarian 32 2 0 28 Aug 2023
Karma: Adaptive Video Streaming via Causal Sequence Modeling Bo Xu Hao Chen Zhanghui Ma CML 11 4 0 20 Aug 2023