iVideoGPT: Interactive VideoGPTs are Scalable World Models

24 May 2024

Dong Li

Papers citing "iVideoGPT: Interactive VideoGPTs are Scalable World Models"

30 / 30 papers shown

Title
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft Junliang Guo Yang Ye Tianyu He Haoyu Wu Yushu Jiang Tim Pearce Jiang Bian VGen SyDa 49 2 0 11 Apr 2025
Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets Chuning Zhu Raymond Yu S. Feng Benjamin Burchfiel Paarth Shah Abhishek Gupta VGen 50 0 0 03 Apr 2025
Scenario Dreamer: Vectorized Latent Diffusion for Generating Driving Simulation Environments Luke Rowe Roger Girgis Anthony Gosselin Liam Paull C. Pal Felix Heide DiffM VGen 33 1 0 28 Mar 2025
AdaWorld: Learning Adaptable World Models with Latent Actions Shenyuan Gao Siyuan Zhou Yilun Du Jun Zhang Chuang Gan VGen 51 3 0 24 Mar 2025
CODA: Repurposing Continuous VAEs for Discrete Tokenization Zeyu Liu Zanlin Ni Yeguo Hua Xin Deng Xiao Ma Cheng Zhong Gao Huang 37 0 0 22 Mar 2025
A Survey on the Optimization of Large Language Model-based Agents Shangheng Du Jiabao Zhao Jinxin Shi Zhentao Xie Xin Jiang Yanhong Bai Liang He LLMAG LM&Ro LM&MA 108 0 0 16 Mar 2025
Dynamical Diffusion: Learning Temporal Dynamics with Diffusion Models Xingzhuo Guo Yu Zhang Baixu Chen Haoran Xu J. Z. Wang Mingsheng Long DiffM AI4TS 29 1 0 02 Mar 2025
Generalist World Model Pre-Training for Efficient Reinforcement Learning Yi Zhao Aidan Scannell Yuxin Hou Tianyu Cui Le Chen Dieter Buchler Arno Solin Juho Kannala J. Pajarinen OffRL OnRL 68 1 0 26 Feb 2025
DMWM: Dual-Mind World Model with Long-Term Imagination Lingyi Wang Rashed Shelim Walid Saad Naren Ramakrishnan LRM 54 1 0 11 Feb 2025
VidTwin: Video VAE with Decoupled Structure and Dynamics Yuchi Wang Junliang Guo Xinyi Xie Tianyu He Xu Sun Jiang Bian DRL VGen 71 3 0 23 Dec 2024
Autoregressive Models in Vision: A Survey Jing Xiong Gongye Liu Lun Huang Chengyue Wu Taiqiang Wu ... M. Zhang Guillermo Sapiro Jiebo Luo Ping Luo Ngai Wong VGen 46 9 0 08 Nov 2024
SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation Yining Hong Beide Liu Maxine Wu Yuanhao Zhai Kai-Wei Chang ... Chung-Ching Lin Jianfeng Wang Z. Yang Yingnian Wu Lijuan Wang VGen 27 6 0 30 Oct 2024
Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective Shenghao Xie Wenqiang Zu Mingyang Zhao Duo Su Shilong Liu Ruohua Shi Guoqi Li Shanghang Zhang Lei Ma LRM 40 3 0 29 Oct 2024
Masked Generative Priors Improve World Models Sequence Modelling Capabilities Cristian Meo Mircea Lica Zarif Ikram Akihiro Nakano Vedant Shah Aniket Didolkar Dianbo Liu Anirudh Goyal Justin Dauwels OffRL 73 0 0 10 Oct 2024
Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis Bohan Zeng Ling Yang Siyu Li Jiaming Liu Zixiang Zhang ... Yongzhen Guo Fu-Yun Wang Minkai Xu Stefano Ermon Wentao Zhang VGen AI4CE 18 6 0 09 Oct 2024
Embodiment-Agnostic Action Planning via Object-Part Scene Flow Weiliang Tang Jia-Hui Pan Wei Zhan Jianshu Zhou Huaxiu Yao Yun-Hui Liu M. Tomizuka Mingyu Ding Chi-Wing Fu 28 0 0 16 Sep 2024
Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI Y. Liu Weixing Chen Yongjie Bai Xiaodan Liang Guanbin Li Wen Gao Liang Lin LM&Ro SyDa AI4CE 48 27 0 09 Jul 2024
Genie: Generative Interactive Environments Jake Bruce Michael Dennis Ashley D. Edwards Jack Parker-Holder Yuge Shi ... Konrad Zolna Jeff Clune Nando de Freitas Satinder Singh Tim Rocktaschel VGen VLM 58 139 0 23 Feb 2024
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization Yang Jin Zhicheng Sun Kun Xu Kun Xu Liwei Chen ... Yuliang Liu Di Zhang Yang Song Kun Gai Yadong Mu VGen 44 42 0 05 Feb 2024
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets A. Blattmann Tim Dockhorn Sumith Kulal Daniel Mendelevitch Maciej Kilian ... Zion English Vikram S. Voleti Adam Letts Varun Jampani Robin Rombach VGen 150 985 0 25 Nov 2023
Video Language Planning Yilun Du Mengjiao Yang Peter R. Florence Fei Xia Ayzaan Wahid ... Pieter Abbeel Josh Tenenbaum L. Kaelbling Andy Zeng Jonathan Tompson PINN LM&Ro 84 83 0 16 Oct 2023
A Control-Centric Benchmark for Video Prediction Stephen Tian Chelsea Finn Jiajun Wu 28 8 0 26 Apr 2023
Grounding Language with Visual Affordances over Unstructured Data Oier Mees Jessica Borja-Diaz Wolfram Burgard LM&Ro 114 106 0 04 Oct 2022
MaskViT: Masked Visual Pre-Training for Video Prediction Agrim Gupta Stephen Tian Yunzhi Zhang Jiajun Wu Roberto Martín-Martín Li Fei-Fei 91 110 0 23 Jun 2022
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 212 682 0 13 Oct 2021
Bottom-Up Skill Discovery from Unsegmented Demonstrations for Long-Horizon Robot Manipulation Yifeng Zhu Peter Stone Yuke Zhu 33 57 0 28 Sep 2021
VideoGPT: Video Generation using VQ-VAE and Transformers Wilson Yan Yunzhi Zhang Pieter Abbeel A. Srinivas ViT VGen 237 482 0 20 Apr 2021
Playing with Food: Learning Food Item Representations through Interactive Exploration A. Sawhney Steven Lee Kevin Zhang Manuela Veloso Oliver Kroemer 29 22 0 06 Jan 2021
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 220 3,054 0 23 Jan 2020
Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting Xingjian Shi Zhourong Chen Hao Wang Dit-Yan Yeung W. Wong W. Woo 188 7,816 0 13 Jun 2015