Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

23 March 2023

Papers citing "Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators"

37 / 87 papers shown

Title
COMBO: Compositional World Models for Embodied Multi-Agent Cooperation Hongxin Zhang Zeyuan Wang Qiushi Lyu Zheyuan Zhang Sunli Chen Tianmin Shu Yilun Du Kwonjoon Lee Yilun Du Chuang Gan 41 12 0 16 Apr 2024
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators Shenghai Yuan Jinfa Huang Yujun Shi Yongqi Xu Ruijie Zhu Bin Lin Xinhua Cheng Li-xin Yuan Jiebo Luo VGen 73 33 0 07 Apr 2024
StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text Roberto Henschel Levon Khachatryan Daniil Hayrapetyan Hayk Poghosyan Vahram Tadevosyan Zhangyang Wang Shant Navasardyan Humphrey Shi DiffM VGen 91 77 0 21 Mar 2024
DreamMotion: Space-Time Self-Similar Score Distillation for Zero-Shot Video Editing Hyeonho Jeong Jinho Chang Geon Yeong Park Jong Chul Ye DiffM VGen 27 13 0 18 Mar 2024
GazeFusion: Saliency-Guided Image Generation Yunxiang Zhang Nan Wu Connor Z. Lin Gordon Wetzstein Qi Sun 35 0 0 16 Mar 2024
3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation Frank Zhang Yibo Zhang Quan Zheng R. Ma W. Hua Hujun Bao Weiwei Xu Changqing Zou 49 9 0 14 Mar 2024
Contextualized Diffusion Models for Text-Guided Image and Video Generation Ling Yang Zhilong Zhang Zhaochen Yu Jingwei Liu Minkai Xu Stefano Ermon Bin Cui 36 4 0 26 Feb 2024
Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling Xiaoyu Shi Zhaoyang Huang Fu-Yun Wang Weikang Bian Dasong Li ... Ka Chun Cheung Simon See Hongwei Qin Jifeng Da Hongsheng Li VGen DiffM 33 80 0 29 Jan 2024
Inflation with Diffusion: Efficient Temporal Adaptation for Text-to-Video Super-Resolution Xin Yuan Jinoo Baek Keyang Xu Omer Tov Hongliang Fei VGen 9 3 0 18 Jan 2024
Object-Centric Diffusion for Efficient Video Editing Kumara Kahatapitiya Adil Karjauv Davide Abati Fatih Porikli Yuki M. Asano A. Habibian VGen 27 12 0 11 Jan 2024
GD^2-NeRF: Generative Detail Compensation via GAN and Diffusion for One-shot Generalizable Neural Radiance Fields X. Pan Zongxin Yang Shuai Bai Yi Yang DiffM OffRL 18 1 0 01 Jan 2024
PEEKABOO: Interactive Video Generation via Masked-Diffusion Yash Jain Anshul Nasery Vibhav Vineet Harkirat Singh Behl VGen 28 30 0 12 Dec 2023
Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation Zhiwu Qing Shiwei Zhang Jiayu Wang Xiang Wang Yujie Wei Yingya Zhang Changxin Gao Nong Sang VGen DiffM 24 37 0 07 Dec 2023
DreamVideo: Composing Your Dream Videos with Customized Subject and Motion Yujie Wei Shiwei Zhang Zhiwu Qing Hangjie Yuan Zhiheng Liu Yu Liu Yingya Zhang Jingren Zhou Hongming Shan DiffM VGen 11 89 0 07 Dec 2023
MEVG: Multi-event Video Generation with Text-to-Video Models Gyeongrok Oh Jaehwan Jeong Sieun Kim Wonmin Byeon Jinkyu Kim Sungwoong Kim Sangpil Kim VGen DiffM 33 20 0 07 Dec 2023
CosAvatar: Consistent and Animatable Portrait Video Tuning with Text Prompt Haiyao Xiao Chenglai Zhong Xuan Gao Yudong Guo Juyong Zhang 33 0 0 30 Nov 2023
Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer Danah Yatim Rafail Fridman Omer Bar-Tal Yoni Kasten Tali Dekel DiffM VGen 19 50 0 28 Nov 2023
Sketch Video Synthesis Yudian Zheng Xiaodong Cun Menghan Xia Chi-Man Pun VGen DiffM 19 2 0 26 Nov 2023
Breathing Life Into Sketches Using Text-to-Video Priors Rinon Gal Yael Vinker Yuval Alaluf Amit H. Bermano Daniel Cohen-Or Ariel Shamir Gal Chechik VGen DiffM 27 29 0 21 Nov 2023
GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning Jiaxi Lv Yi Huang Mingfu Yan Jiancheng Huang Jianzhuang Liu Yifan Liu Yafei Wen Xiaoxin Chen Shifeng Chen VGen DiffM 23 23 0 21 Nov 2023
MotionDirector: Motion Customization of Text-to-Video Diffusion Models Rui Zhao Yuchao Gu Jay Zhangjie Wu David Junhao Zhang Jia-Wei Liu Weijia Wu Jussi Keppo Mike Zheng Shou DiffM VGen 25 103 0 12 Oct 2023
HiFi-123: Towards High-fidelity One Image to 3D Content Generation Wangbo Yu Li-ming Yuan Yan-Pei Cao Xiangjun Gao Xiaoyu Li Wenbo Hu Long Quan Ying Shan Yonghong Tian DiffM 21 29 0 10 Oct 2023
FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing Yuren Cong Mengmeng Xu Christian Simon Shoufa Chen Jiawei Ren Yanping Xie Juan-Manuel Perez-Rua Bodo Rosenhahn Tao Xiang Sen He DiffM VGen 22 74 0 09 Oct 2023
Language-Oriented Communication with Semantic Coding and Knowledge Distillation for Text-to-Image Generation Hyelin Nam Jihong Park Jinho D. Choi M. Bennis Seong-Lyun Kim 33 24 0 20 Sep 2023
Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation Jiaxi Gu Shicong Wang Haoyu Zhao Tianyi Lu Xing Zhang Zuxuan Wu Songcen Xu Wei Zhang Yu-Gang Jiang Hang Xu DiffM VGen 34 43 0 07 Sep 2023
Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from a Single Image Liao Shen Xingyi Li Huiqiang Sun Juewen Peng Ke Xian Zhiguo Cao Guo-Shing Lin DiffM 27 14 0 20 Aug 2023
MeDM: Mediating Image Diffusion Models for Video-to-Video Translation with Temporal Correspondence Guidance Ernie Chu Tzu-Hua Huang Shuohao Lin Jun-Cheng Chen DiffM VGen 19 13 0 19 Aug 2023
CoDeF: Content Deformation Fields for Temporally Consistent Video Processing Ouyang Hao Qiuyu Wang Yuxi Xiao Qingyan Bai Juntao Zhang Kecheng Zheng Xiaowei Zhou Qifeng Chen Yujun Shen DiffM VGen 41 81 0 15 Aug 2023
VideoControlNet: A Motion-Guided Video-to-Video Translation Framework by Using Diffusion Model with ControlNet Zhihao Hu Dong Xu DiffM VGen 11 64 0 26 Jul 2023
Collaborative Score Distillation for Consistent Visual Synthesis Subin Kim Kyungmin Lee June Suk Choi Jongheon Jeong Kihyuk Sohn Jinwoo Shin DiffM 19 21 0 04 Jul 2023
Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising Fu Lee Wang Wenshuo Chen Guanglu Song Han-Jia Ye Yu Liu Hongsheng Li VGen DiffM 33 88 0 29 May 2023
Towards Consistent Video Editing with Text-to-Image Diffusion Models Zicheng Zhang Bonan Li Xuecheng Nie Congying Han Tiande Guo Luoqi Liu DiffM 10 24 0 27 May 2023
Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts Yuyang Zhao Enze Xie Lanqing Hong Zhenguo Li G. Lee DiffM VGen 20 32 0 15 May 2023
Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models Eric Zhang Kai Wang Xingqian Xu Zhangyang Wang Humphrey Shi DiffM 42 172 0 30 Mar 2023
StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing Senmao Li Joost van de Weijer Taihang Hu F. Khan Qibin Hou Yaxing Wang Jian Yang DiffM 29 52 0 28 Mar 2023
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang DiffM 243 564 0 29 May 2022
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,764 0 24 Feb 2021