Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer

7 April 2022

Devi Parikh

Papers citing "Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer"

50 / 179 papers shown

Title
Hierarchical Patch Diffusion Models for High-Resolution Video Generation Ivan Skorokhodov Willi Menapace Aliaksandr Siarohin Sergey Tulyakov VGen 40 10 0 12 Jun 2024
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation Kai Wang Shijian Deng Jing Shi Dimitrios Hatzinakos Yapeng Tian VGen 64 8 0 11 Jun 2024
Image and Video Tokenization with Binary Spherical Quantization Yue Zhao Yuanjun Xiong Philipp Krahenbuhl 20 17 0 11 Jun 2024
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction Zhen Xing Qi Dai Zejia Weng Zuxuan Wu Yu-Gang Jiang VGen 39 14 0 10 Jun 2024
CoNo: Consistency Noise Injection for Tuning-free Long Video Diffusion Xingrui Wang Xin Li Zhibo Chen DiffM 42 1 0 07 Jun 2024
Zero-Shot Video Editing through Adaptive Sliding Score Distillation Lianghan Zhu Yanqi Bao Jing Huo Jing Wu Yu-Kun Lai Wenbin Li Yang Gao VGen 21 2 0 07 Jun 2024
SNED: Superposition Network Architecture Search for Efficient Video Diffusion Model Zhengang Li Yan Kang Yuchen Liu Difan Liu Tobias Hinz Feng Liu Yanzhi Wang DiffM 14 1 0 31 May 2024
CV-VAE: A Compatible Video VAE for Latent Generative Video Models Sijie Zhao Yong Zhang Xiaodong Cun Shaoshu Yang Muyao Niu Xiaoyu Li Wenbo Hu Ying Shan DiffM 56 23 0 30 May 2024
From Sora What We Can See: A Survey of Text-to-Video Generation Rui Sun Yumin Zhang Tejal Shah Jiahao Sun Shuoying Zhang Wenqi Li Haoran Duan Bo Wei R. Ranjan EGVM 76 17 0 17 May 2024
Video Diffusion Models: A Survey Andrew Melnik Michal Ljubljanac Cong Lu Qi Yan Weiming Ren Helge J. Ritter VGen 63 12 0 06 May 2024
Matten: Video Generation with Mamba-Attention Yu Gao Jiancheng Huang Xiaopeng Sun Zequn Jie Yujie Zhong Lin Ma 61 11 0 05 May 2024
Beyond Deepfake Images: Detecting AI-Generated Videos Danial Samadi Vahdati Tai D. Nguyen Aref Azizpour Matthew C. Stamm 55 10 0 24 Apr 2024
ID-Animator: Zero-Shot Identity-Preserving Human Video Generation Xuanhua He Quande Liu Shengju Qian Xin Eric Wang Tao Hu Ke Cao K. Yan Jie Zhang VGen 23 39 0 23 Apr 2024
Exploring AIGC Video Quality: A Focus on Visual Harmony, Video-Text Consistency and Domain Distribution Gap Bowen Qu Xiaoyu Liang Shangkun Sun Wei-Nan Gao EGVM 20 6 0 21 Apr 2024
On the Content Bias in Fréchet Video Distance Jason S. Hoffman Aniruddha Mahapatra Gaurav Parmar Jun-Yan Zhu Jia-Bin Huang EGVM 45 15 0 18 Apr 2024
VideoGigaGAN: Towards Detail-rich Video Super-Resolution Yiran Xu Taesung Park Richard Zhang Yang Zhou Eli Shechtman Feng Liu Jia-Bin Huang Difan Liu SupR 85 10 0 18 Apr 2024
Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model Xu He Qiaochu Huang Zhensong Zhang Zhiwei Lin Zhiyong Wu Sicheng Yang Minglei Li Zhiyi Chen Songcen Xu Xiaofei Wu 18 15 0 02 Apr 2024
A Survey on Long Video Generation: Challenges, Methods, and Prospects Chengxuan Li Di Huang Zeyu Lu Yang Xiao Qingqi Pei Lei Bai EGVM 28 19 0 25 Mar 2024
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition Sihyun Yu Weili Nie De-An Huang Boyi Li Jinwoo Shin A. Anandkumar VGen DiffM 18 15 0 21 Mar 2024
SSM Meets Video Diffusion Models: Efficient Video Generation with Structured State Spaces Yuta Oshima Shohei Taniguchi Masahiro Suzuki Yutaka Matsuo 29 7 0 12 Mar 2024
Video Generation with Consistency Tuning Chaoyi Wang Yaozhe Song Yafeng Zhang Jun Pei Lijie Xia Jianpo Liu 14 1 0 11 Mar 2024
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners Yazhou Xing Yin-Yin He Zeyue Tian Xintao Wang Qifeng Chen 19 20 0 27 Feb 2024
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models Yixin Liu Kai Zhang Yuan Li Zhiling Yan Chujie Gao ... Yue Huang Hanchi Sun Jianfeng Gao Lifang He Lichao Sun VLM VGen EGVM 65 241 0 27 Feb 2024
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis Willi Menapace Aliaksandr Siarohin Ivan Skorokhodov Ekaterina Deyneka Tsai-Shien Chen ... Yuwei Fang A. Stoliar Elisa Ricci Jian Ren Sergey Tulyakov VGen 38 56 0 22 Feb 2024
Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models Yixuan Ren Yang Zhou Jimei Yang Jing Shi Difan Liu Feng Liu Mingi Kwon Abhinav Shrivastava DiffM VGen 89 34 0 22 Feb 2024
ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation Weiming Ren Harry Yang Ge Zhang Cong Wei Xinrun Du Stephen W. Huang Wenhu Chen DiffM VGen 74 52 0 06 Feb 2024
STREAM: Spatio-TempoRal Evaluation and Analysis Metric for Video Generative Models Pum Jun Kim Seojun Kim Jaejun Yoo EGVM 11 3 0 30 Jan 2024
ActAnywhere: Subject-Aware Video Background Generation Boxiao Pan Zhan Xu Chun-Hao Paul Huang Krishna Kumar Singh Yang Zhou Leonidas J. Guibas Jimei Yang VGen DiffM 16 0 0 19 Jan 2024
Vlogger: Make Your Dream A Vlog Shaobin Zhuang Kunchang Li Xinyuan Chen Yaohui Wang Ziwei Liu Yu Qiao Yali Wang VGen DiffM 17 34 0 17 Jan 2024
UniVG: Towards UNIfied-modal Video Generation Ludan Ruan Lei Tian Chuanwei Huang Xu Zhang Xinyan Xiao VGen DiffM 15 3 0 17 Jan 2024
VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models Haoxin Chen Yong Zhang Xiaodong Cun Menghan Xia Xintao Wang Chao-Liang Weng Ying Shan VGen DiffM 115 269 0 17 Jan 2024
Collaboratively Self-supervised Video Representation Learning for Action Recognition Jie M. Zhang Zhifan Wan Lanqing Hu Stephen Lin Shuzhe Wu Shiguang Shan TTA 52 0 0 15 Jan 2024
RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks Partha Ghosh Soubhik Sanyal Cordelia Schmid Bernhard Scholkopf VGen 22 1 0 11 Jan 2024
Latte: Latent Diffusion Transformer for Video Generation Xin Ma Yaohui Wang Gengyun Jia Xinyuan Chen Z. Liu Yuan-Fang Li Cunjian Chen Yu Qiao DiffM VGen 123 227 0 05 Jan 2024
Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions David Junhao Zhang Dongxu Li Hung Le Mike Zheng Shou Caiming Xiong Doyen Sahoo VGen 6 23 0 03 Jan 2024
FlashVideo: A Framework for Swift Inference in Text-to-Video Generation Bin Lei Le Chen Caiwen Ding VGen 15 1 0 30 Dec 2023
MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers Haoyu Ma Shahin Mahdizadehaghdam Bichen Wu Zhipeng Fan Yuchao Gu Wenliang Zhao Lior Shapira Xiaohui Xie DiffM VGen 10 4 0 19 Dec 2023
Photorealistic Video Generation with Diffusion Models Agrim Gupta Lijun Yu Kihyuk Sohn Xiuye Gu Meera Hahn Fei-Fei Li Irfan Essa Lu Jiang José Lezama VGen 25 172 0 11 Dec 2023
CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling Ruihan Yang H. Gamper Sebastian Braun DiffM 17 5 0 08 Dec 2023
GenDeF: Learning Generative Deformation Field for Video Generation Wen Wang Kecheng Zheng Qiuyu Wang Hao Chen Zifan Shi Ceyuan Yang Yujun Shen Chunhua Shen VGen DiffM 38 2 0 07 Dec 2023
DreamVideo: Composing Your Dream Videos with Customized Subject and Motion Yujie Wei Shiwei Zhang Zhiwu Qing Hangjie Yuan Zhiheng Liu Yu Liu Yingya Zhang Jingren Zhou Hongming Shan DiffM VGen 11 89 0 07 Dec 2023
MEVG: Multi-event Video Generation with Text-to-Video Models Gyeongrok Oh Jaehwan Jeong Sieun Kim Wonmin Byeon Jinkyu Kim Sungwoong Kim Sangpil Kim VGen DiffM 30 19 0 07 Dec 2023
F3-Pruning: A Training-Free and Generalized Pruning Strategy towards Faster and Finer Text-to-Video Synthesis Sitong Su Jianzhi Liu Lianli Gao Jingkuan Song DiffM VGen 12 4 0 06 Dec 2023
Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving Yu-Quan Wang Jiawei He Lue Fan Hongxin Li Yuntao Chen Zhaoxiang Zhang VGen 43 116 0 29 Nov 2023
VBench: Comprehensive Benchmark Suite for Video Generative Models Ziqi Huang Yinan He Jiashuo Yu Fan Zhang Chenyang Si ... Xinyuan Chen Limin Wang Dahua Lin Yu Qiao Ziwei Liu VGen 59 341 0 29 Nov 2023
AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset Zhixi Cai Shreya Ghosh Aman Pankaj Adatia Munawar Hayat Abhinav Dhall Kalin Stefanov 6 26 0 26 Nov 2023
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets A. Blattmann Tim Dockhorn Sumith Kulal Daniel Mendelevitch Maciej Kilian ... Zion English Vikram S. Voleti Adam Letts Varun Jampani Robin Rombach VGen 150 985 0 25 Nov 2023
FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline V.Ya. Arkhipkin Zein Shaheen Viacheslav Vasilev E. Dakhova Andrey Kuznetsov Denis Dimitrov DiffM VGen 16 5 0 22 Nov 2023
MoVideo: Motion-Aware Video Generation with Diffusion Models Jingyun Liang Yuchen Fan Kai Zhang Radu Timofte Luc Van Gool Rakesh Ranjan DiffM VGen 25 10 0 19 Nov 2023
Make Pixels Dance: High-Dynamic Video Generation Yan Zeng Guoqiang Wei Jiani Zheng Jiaxin Zou Yang Wei Yuchen Zhang Hang Li DiffM VGen 16 36 0 18 Nov 2023