Latent Video Transformer

18 June 2020

Papers citing "Latent Video Transformer"

50 / 91 papers shown

Title
MALT Diffusion: Memory-Augmented Latent Transformers for Any-Length Video Generation Sihyun Yu Meera Hahn Dan Kondratyuk Jinwoo Shin Agrim Gupta José Lezama Irfan Essa David A. Ross Jonathan Huang DiffM VGen 72 0 0 18 Feb 2025
Object-Centric Image to Video Generation with Language Guidance Angel Villar-Corrales Gjergj Plepi Sven Behnke DiffM VGen OCL 71 0 0 17 Feb 2025
Efficient Continuous Video Flow Model for Video Prediction Gaurav Shrivastava Abhinav Shrivastava VGen 63 0 0 07 Dec 2024
Continuous Video Process: Modeling Videos as Continuous Multi-Dimensional Processes for Video Prediction Gaurav Shrivastava Abhinav Shrivastava VGen DiffM 61 0 0 06 Dec 2024
Artificial Intelligence for Biomedical Video Generation Linyuan Li Jianing Qiu Anujit Saha Lin Li Poyuan Li Mengxian He Ziyu Guo Wu Yuan VGen 58 1 0 12 Nov 2024
Autoregressive Models in Vision: A Survey Jing Xiong Gongye Liu Lun Huang Chengyue Wu Taiqiang Wu ... M. Zhang Guillermo Sapiro Jiebo Luo Ping Luo Ngai Wong VGen 46 9 0 08 Nov 2024
GameGen-X: Interactive Open-world Game Video Generation Haoxuan Che Xuanhua He Quande Liu C. Jin Hao Chen VGen 62 16 0 01 Nov 2024
JVID: Joint Video-Image Diffusion for Visual-Quality and Temporal-Consistency in Video Generation Hadrien Reynaud Matthew Baugh Mischa Dombrowski Sarah Cechnicka Qingjie Meng Bernhard Kainz VLM 31 0 0 21 Sep 2024
Real-Time Video Generation with Pyramid Attention Broadcast Xuanlei Zhao Xiaolong Jin Kai Wang Yang You VGen DiffM 69 31 0 22 Aug 2024
Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving Bernard Lange Masha Itkina Jiachen Li Mykel J. Kochenderfer 27 4 0 30 Jul 2024
OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation Junke Wang Yi-Xin Jiang Zehuan Yuan Binyue Peng Zuxuan Wu Yu-Gang Jiang ViT VGen 75 36 0 13 Jun 2024
The Power of Next-Frame Prediction for Learning Physical Laws T. Winterbottom G. Hudson Daniel Kluvanec Dean L. Slack Jamie Sterling Junjie Shentu Chenghao Xiao Zheming Zhou Noura Al Moubayed 19 1 0 21 May 2024
Matten: Video Generation with Mamba-Attention Yu Gao Jiancheng Huang Xiaopeng Sun Zequn Jie Yujie Zhong Lin Ma 64 12 0 05 May 2024
Beyond Deepfake Images: Detecting AI-Generated Videos Danial Samadi Vahdati Tai D. Nguyen Aref Azizpour Matthew C. Stamm 58 10 0 24 Apr 2024
Exploring AIGC Video Quality: A Focus on Visual Harmony, Video-Text Consistency and Domain Distribution Gap Bowen Qu Xiaoyu Liang Shangkun Sun Wei-Nan Gao EGVM 30 6 0 21 Apr 2024
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition Sihyun Yu Weili Nie De-An Huang Boyi Li Jinwoo Shin A. Anandkumar VGen DiffM 24 15 0 21 Mar 2024
SFTformer: A Spatial-Frequency-Temporal Correlation-Decoupling Transformer for Radar Echo Extrapolation Liangyu Xu Wanxuan Lu Hongfeng Yu Fanglong Yao Xian Sun Kun Fu 27 5 0 28 Feb 2024
Animated Stickers: Bringing Stickers to Life with Video Diffusion David Yan Winnie Zhang Luxin Zhang Anmol Kalia Dingkang Wang ... Guan Pang Ali K. Thabet Peter Vajda Amy Bearman Licheng Yu VGen DiffM 44 2 0 08 Feb 2024
UniVG: Towards UNIfied-modal Video Generation Ludan Ruan Lei Tian Chuanwei Huang Xu Zhang Xinyan Xiao VGen DiffM 18 3 0 17 Jan 2024
Latte: Latent Diffusion Transformer for Video Generation Xin Ma Yaohui Wang Gengyun Jia Xinyuan Chen Z. Liu Yuan-Fang Li Cunjian Chen Yu Qiao DiffM VGen 123 233 0 05 Jan 2024
FlashVideo: A Framework for Swift Inference in Text-to-Video Generation Bin Lei Le Chen Caiwen Ding VGen 20 1 0 30 Dec 2023
Sign Language Production with Latent Motion Transformer Pan Xie Taiying Peng Yao Du Qipeng Zhang SLR 14 3 0 20 Dec 2023
Deterministic Guidance Diffusion Model for Probabilistic Weather Forecasting Donggeun Yoon Minseok Seo Do-Yun Kim Yeji Choi Donghyeon Cho DiffM 23 5 0 05 Dec 2023
$ART$\boldsymbol{\cdot}$V: Auto-Regressive Text-to-Video Generation with Diffusion Models$ ART $\boldsymbol{\cdot}$ V: Auto-Regressive Text-to-Video Generation with Diffusion Models Wenming Weng Ruoyu Feng Yanhui Wang Qi Dai Chunyu Wang ... Jianmin Bao Yuhui Yuan Chong Luo Yueyi Zhang Zhiwei Xiong VGen 22 32 0 30 Nov 2023
How Physics and Background Attributes Impact Video Transformers in Robotic Manipulation: A Case Study on Planar Pushing Shutong Jin Ruiyu Wang Muhammad Zahid Florian T. Pokorny 21 1 0 03 Oct 2023
MMVP: Motion-Matrix-based Video Prediction Yiqi Zhong Luming Liang Ilya Zharkov Ulrich Neumann 20 15 0 30 Aug 2023
Online Clustered Codebook Chuanxia Zheng Andrea Vedaldi 37 26 0 27 Jul 2023
PreDiff: Precipitation Nowcasting with Latent Diffusion Models Zhihan Gao Xingjian Shi Boran Han Hongya Wang Xiaoyong Jin Danielle C. Maddix Yi Zhu Mu Li Bernie Wang BDL DiffM 23 54 0 19 Jul 2023
Fast Fourier Inception Networks for Occluded Video Prediction Ping Li Chenhan Zhang Xianghua Xu 28 6 0 17 Jun 2023
Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object Video Generation A. Davtyan Paolo Favaro VGen 13 4 0 06 Jun 2023
Video Diffusion Models with Local-Global Context Guidance Si-hang Yang Lu Zhang Yu Liu Zhizhuo Jiang You He VGen DiffM 11 13 0 05 Jun 2023
Visual Affordance Prediction for Guiding Robot Exploration Homanga Bharadhwaj Abhi Gupta Shubham Tulsiani 35 12 0 28 May 2023
Sounding Video Generator: A Unified Framework for Text-guided Sounding Video Generation Jiawei Liu Weining Wang Sihan Chen Xinxin Zhu J. Liu DiffM VGen 17 13 0 29 Mar 2023
Towards End-to-End Generative Modeling of Long Videos with Memory-Efficient Bidirectional Transformers Jaehoon Yoo Semin Kim Doyup Lee Chiheon Kim Seunghoon Hong 21 3 0 20 Mar 2023
Machine learning with data assimilation and uncertainty quantification for dynamical systems: a review Sibo Cheng César Quilodrán-Casas Said Ouala A. Farchi Che Liu ... Weiping Ding Yike Guo A. Carrassi Marc Bocquet Rossella Arcucci AI4CE 24 121 0 18 Mar 2023
TBP-Former: Learning Temporal Bird's-Eye-View Pyramid for Joint Perception and Prediction in Vision-Centric Autonomous Driving Shaoheng Fang Zi Wang Yiqi Zhong Junhao Ge Siheng Chen Yanfeng Wang ViT 28 29 0 17 Mar 2023
MOSO: Decomposing MOtion, Scene and Object for Video Prediction M. Sun Weining Wang Xinxin Zhu Jing Liu 13 14 0 07 Mar 2023
Object-Centric Video Prediction via Decoupling of Object Dynamics and Interactions Angel Villar-Corrales Ismail Wahdan Sven Behnke OCL 11 7 0 23 Feb 2023
Video Probabilistic Diffusion Models in Projected Latent Space Sihyun Yu Kihyuk Sohn Subin Kim Jinwoo Shin VGen DiffM 37 160 0 15 Feb 2023
Regeneration Learning: A Learning Paradigm for Data Generation Xu Tan Tao Qin Jiang Bian Tie-Yan Liu Yoshua Bengio GAN 31 15 0 21 Jan 2023
Long-horizon video prediction using a dynamic latent hierarchy Alexey Zakharov Qinghai Guo Z. Fountas 16 4 0 29 Dec 2022
Towards Smooth Video Composition Qihang Zhang Ceyuan Yang Yujun Shen Yinghao Xu Bolei Zhou VGen 31 14 0 14 Dec 2022
MAGVIT: Masked Generative Video Transformer Lijun Yu Yong Cheng Kihyuk Sohn José Lezama Han Zhang ... Alexander G. Hauptmann Ming-Hsuan Yang Yuan Hao Irfan Essa Lu Jiang DiffM VGen 22 223 0 10 Dec 2022
MIMO Is All You Need : A Strong Multi-In-Multi-Out Baseline for Video Prediction Shuliang Ning Mengcheng Lan Yanran Li Chaofeng Chen Qian Chen Xunlai Chen Xiaoguang Han Shuguang Cui 22 20 0 09 Dec 2022
Unified Discrete Diffusion for Simultaneous Vision-Language Generation Minghui Hu Chuanxia Zheng Heliang Zheng Tat-Jen Cham Chaoyue Wang Zuopeng Yang Dacheng Tao Ponnuthurai Nagaratnam Suganthan DiffM 18 23 0 27 Nov 2022
Efficient Video Prediction via Sparsely Conditioned Flow Matching A. Davtyan Sepehr Sameni Paolo Favaro VGen DiffM 33 27 0 26 Nov 2022
Latent Video Diffusion Models for High-Fidelity Long Video Generation Yin-Yin He Tianyu Yang Yong Zhang Ying Shan Qifeng Chen DiffM VGen 16 202 0 23 Nov 2022
Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation Tsu-jui Fu Licheng Yu Ning Zhang Cheng-Yang Fu Jong-Chyi Su William Yang Wang Sean Bell VGen 30 37 0 23 Nov 2022
SimVP: Towards Simple yet Powerful Spatiotemporal Predictive Learning Cheng Tan Zhangyang Gao Siyuan Li Stan Z. Li VLM AI4TS 22 1 0 22 Nov 2022
SSGVS: Semantic Scene Graph-to-Video Synthesis Yuren Cong Jinhui Yi Bodo Rosenhahn M. Yang 60 7 0 11 Nov 2022