GAIA-1: A Generative World Model for Autonomous Driving

29 September 2023

Masane Fuchi

Lloyd Russell

Hudson Yeo

Alex Kendall

Gianluca Corrado

Papers citing "GAIA-1: A Generative World Model for Autonomous Driving"

50 / 168 papers shown

Title
InfinityDrive: Breaking Time Limits in Driving World Models Xi Guo C. Ding Haoxuan Dou Xin Zhang Weixuan Tang Wei Yu Wu VGen 81 5 0 02 Dec 2024
HoloDrive: Holistic 2D-3D Multi-Modal Street Scene Generation for Autonomous Driving Z. Wu Jingcheng Ni Xiaodong Wang Yuxin Guo Rui Chen Lewei Lu Jifeng Dai Yuwen Xiong 72 6 0 02 Dec 2024
Motion Dreamer: Boundary Conditional Motion Reasoning for Physically Coherent Video Generation Tianshuo Xu Zhifei Chen Leyi Wu Hao Lu Yuying Chen Lihui Jiang Bingbing Liu Yingcong Chen VGen 73 2 0 30 Nov 2024
ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration Chaojun Ni Guosheng Zhao Xiaofeng Wang Zheng Hua Zhu Wenkang Qin ... Kun Zhan Peng Jia Xianpeng Lang Xingang Wang Wenjun Mei VGen 101 6 0 29 Nov 2024
Rate-Informed Discovery via Bayesian Adaptive Multifidelity Sampling Aman Sinha Payam Nikdel Supratik Paul Shimon Whiteson 69 0 0 26 Nov 2024
VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation Youpeng Wen Junfan Lin Y. X. Zhu J. Han Hang Xu Shen Zhao Xiaodan Liang VGen DiffM 43 2 0 14 Nov 2024
EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation Xiaofeng Wang Kang Zhao F. Liu Jiayu Wang Guosheng Zhao Xiaoyi Bao Zheng Hua Zhu Yingya Zhang Xingang Wang VGen 56 6 0 13 Nov 2024
World Models: The Safety Perspective Zifan Zeng Chongzhe Zhang Feng Liu Joseph Sifakis Qunli Zhang Shiming Liu Peng Wang KELM LLMAG 40 1 0 12 Nov 2024
SPARTAN: A Sparse Transformer Learning Local Causation Anson Lei Bernhard Schölkopf Ingmar Posner 30 2 0 11 Nov 2024
Scaling Laws for Pre-training Agents and World Models Tim Pearce Tabish Rashid Dave Bignell Raluca Georgescu Sam Devlin Katja Hofmann LM&Ro 34 7 0 07 Nov 2024
Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey Ao Fu Yi Zhou Tao Zhou Y. Yang Bojun Gao Qun Li Guobin Wu Ling Shao VGen 59 2 0 05 Nov 2024
SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation Yining Hong Beide Liu Maxine Wu Yuanhao Zhai Kai-Wei Chang ... Chung-Ching Lin Jianfeng Wang Z. Yang Yingnian Wu Lijuan Wang VGen 35 6 0 30 Oct 2024
Visual Imitation Learning of Non-Prehensile Manipulation Tasks with Dynamics-Supervised Models Abdullah Mustafa Ryo Hanai Ixchel Ramirez Floris Erich Ryoichi Nakajo Y. Domae Tetsuya Ogata SSL 29 1 0 25 Oct 2024
FreeVS: Generative View Synthesis on Free Driving Trajectory Qitai Wang Lue Fan Yuqi Wang Yuntao Chen Zhaoxiang Zhang VGen 48 7 0 23 Oct 2024
Foundation Models for Rapid Autonomy Validation Alec Farid Peter Schleede Aaron Huang Christoffer Heckman 32 0 0 22 Oct 2024
DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation Guosheng Zhao Chaojun Ni Xiaofeng Wang Zheng Zhu X. Zhang ... Xinze Chen Boyuan Wang Youyi Zhang Wenjun Mei Xingang Wang VGen 83 24 0 17 Oct 2024
Asymptotic Analysis of Sample-averaged Q-learning Saunak Kumar Panda Ruiqi Liu Yisha Xiang OnRL 52 8 0 14 Oct 2024
Masked Generative Priors Improve World Models Sequence Modelling Capabilities Cristian Meo Mircea Lica Zarif Ikram Akihiro Nakano Vedant Shah Aniket Didolkar Dianbo Liu Anirudh Goyal Justin Dauwels OffRL 84 0 0 10 Oct 2024
Pyramidal Flow Matching for Efficient Video Generative Modeling Yang Jin Zhicheng Sun Ningyuan Li Kun Xu K. Xu ... Nan Zhuang Quzhe Huang Yang Song Yadong Mu Zhouchen Lin VGen 66 64 0 08 Oct 2024
Grounded Answers for Multi-agent Decision-making Problem through Generative World Model Zeyang Liu Xinrui Yang Shiguang Sun Long Qian Lipeng Wan Xingyu Chen Xuguang Lan 22 2 0 03 Oct 2024
Loong: Generating Minute-level Long Videos with Autoregressive Language Models Yuqing Wang Tianwei Xiong Daquan Zhou Zhijie Lin Yang Zhao Bingyi Kang Jiashi Feng Xihui Liu VGen 46 23 0 03 Oct 2024
Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding Yao Teng Han Shi Xian Liu Xuefei Ning Guohao Dai Yu Wang Zhenguo Li Xihui Liu 48 10 0 02 Oct 2024
AVID: Adapting Video Diffusion Models to World Models Marc Rigter Tarun Gupta Agrin Hilmkil Chao Ma VGen 17 3 0 01 Oct 2024
Text Image Generation for Low-Resource Languages with Dual Translation Learning Chihiro Noguchi Shun Fukuda Shoichiro Mihara Masao Yamanaka DiffM 21 0 0 26 Sep 2024
RenderWorld: World Model with Self-Supervised 3D Label Ziyang Yan Wenzhen Dong Yihua Shao Yuhang Lu Liu Haiyang ... Haozhe Wang Zhe Wang Yan Wang Fabio Remondino Yuexin Ma 3DV VGen 62 11 0 17 Sep 2024
Learning Generative Interactive Environments By Trained Agent Exploration Naser Kazemi N. Savov Danda Paudel Luc Van Gool 26 2 0 10 Sep 2024
SGC-VQGAN: Towards Complex Scene Representation via Semantic Guided Clustering Codebook C. Ding Chiyu Wang Boshi Liu Xi Guo Weixuan Tang Wei Yu Wu 38 0 0 09 Sep 2024
DreamForge: Motion-Aware Autoregressive Video Generation for Multi-View Driving Scenes Jianbiao Mei Yukai Ma Xuemeng Yang Licheng Wen Tiantian Wei Min Dou Yukai Ma Min Dou Botian Shi Yong Liu DiffM VGen 62 3 0 06 Sep 2024
OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving Julong Wei Shanshuai Yuan Pengfei Li Qingda Hu Zhongxue Gan Wenchao Ding VLM 27 17 0 05 Sep 2024
How Could Generative AI Support Compliance with the EU AI Act? A Review for Safe Automated Driving Perception Mert Keser Youssef Shoeb Alois Knoll 32 2 0 30 Aug 2024
Diffusion Models Are Real-Time Game Engines Dani Valevski Yaniv Leviathan Moab Arar Shlomi Fruchter DiffM VGen AI4CE 33 57 0 27 Aug 2024
TC-PDM: Temporally Consistent Patch Diffusion Models for Infrared-to-Visible Video Translation Anh-Dzung Doan Vu Minh Hieu Phan Surabhi Gupta Markus Wagner Tat-Jun Chin Ian Reid VGen DiffM 41 0 0 26 Aug 2024
SurGen: Text-Guided Diffusion Model for Surgical Video Generation Joseph Cho Samuel Schmidgall C. Zakka Mrudang Mathur Dhamanpreet Kaur R. Shad W. Hiesinger VGen MedIm 29 6 0 26 Aug 2024
Multi-Frame Vision-Language Model for Long-form Reasoning in Driver Behavior Analysis Hiroshi Takato Hiroshi Tsutsui Komei Soda Hidetaka Kamigaito VLM 26 0 0 03 Aug 2024
DriveArena: A Closed-loop Generative Simulation Platform for Autonomous Driving Xuemeng Yang Licheng Wen Yukai Ma Jianbiao Mei Xin Li ... Min Dou Botian Shi Liang He Yong-Jin Liu Yu Qiao VGen 33 16 0 01 Aug 2024
Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving Bernard Lange Masha Itkina Jiachen Li Mykel J. Kochenderfer 27 4 0 30 Jul 2024
UrbanWorld: An Urban World Model for 3D City Generation Yu Shang Jiansheng Chen Hangyu Fan Jingtao Ding J. Feng Yong Li 51 6 0 16 Jul 2024
PredBench: Benchmarking Spatio-Temporal Prediction across Diverse Disciplines Zidong Wang Zeyu Lu Di Huang Tong He Xihui Liu Wanli Ouyang Lei Bai 33 5 0 11 Jul 2024
Exploring the Causality of End-to-End Autonomous Driving Jiankun Li Hao Li Jiangjiang Liu Zhikang Zou Xiaoqing Ye F. Wang Jizhou Huang Hua-Hong Wu Haifeng Wang LRM 45 4 0 09 Jul 2024
Solving Motion Planning Tasks with a Scalable Generative Model Yihan Hu Siqi Chai Zhening Yang Jingyu Qian Kun Li Wenxin Shao Haichao Zhang Wei-ping Xu Qiang Liu 41 17 0 03 Jul 2024
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion Boyuan Chen Diego Marti Monso Yilun Du Max Simchowitz Russ Tedrake Vincent Sitzmann DiffM 22 73 0 01 Jul 2024
Efficient World Models with Context-Aware Tokenization Vincent Micheli Eloi Alonso François Fleuret OffRL VLM 32 4 0 27 Jun 2024
IRASim: Learning Interactive Real-Robot Action Simulators Fangqi Zhu Hongtao Wu Song Guo Yuxiao Liu Chilam Cheang Tao Kong 75 12 0 20 Jun 2024
GenMM: Geometrically and Temporally Consistent Multimodal Data Generation for Video and LiDAR Bharat Singh Viveka Kulharia Luyu Yang Avinash Ravichandran Ambrish Tyagi Ashish Shrivastava VGen 29 2 0 15 Jun 2024
Generating and Evolving Reward Functions for Highway Driving with Large Language Models Xu Han Qiannan Yang Xianda Chen Xiaowen Chu Meixin Zhu 53 4 0 15 Jun 2024
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities Roman Bachmann Oğuzhan Fatih Kar David Mizrahi Ali Garjani Mingfei Gao David Griffiths Jiaming Hu Afshin Dehghan Amir Zamir MoE VLM MLLM 31 14 0 13 Jun 2024
SimGen: Simulator-conditioned Driving Scene Generation Yunsong Zhou Michael Simon Zhenghao Peng Sicheng Mo Hongzi Zhu Minyi Guo Bolei Zhou VGen 44 11 0 13 Jun 2024
Pandora: Towards General World Model with Natural Language Actions and Video States Jiannan Xiang Guangyi Liu Yi Gu Qiyue Gao Yuting Ning ... Shibo Hao Yemin Shi Zhengzhong Liu Eric P. Xing Zhiting Hu VGen 54 35 0 12 Jun 2024
Enhancing End-to-End Autonomous Driving with Latent World Model Yingyan Li Lue Fan Jiawei He Yuqi Wang Yuntao Chen Zhaoxiang Zhang Tieniu Tan 70 8 0 12 Jun 2024
UMAD: Unsupervised Mask-Level Anomaly Detection for Autonomous Driving Daniel Bogdoll Noël Ollick Tim Joseph J. Marius Zöllner 29 1 0 10 Jun 2024