Phenaki: Variable Length Video Generation From Open Domain Textual Description

5 October 2022

Ruben Villegas

Mohammad Babaeizadeh

Pieter-Jan Kindermans

Papers citing "Phenaki: Variable Length Video Generation From Open Domain Textual Description"

50 / 287 papers shown

Title
StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D Pengsheng Guo Hans Hao Adam Caccavale Zhongzheng Ren Edward Zhang Qi Shan Aditya Sankar A. Schwing Alex Colburn Fangchang Ma DiffM 3DGS 38 7 0 02 Dec 2023
VideoBooth: Diffusion-based Video Generation with Image Prompts Yuming Jiang Tianxing Wu Shuai Yang Chenyang Si Dahua Lin Yu Qiao Chen Change Loy Ziwei Liu DiffM VGen 32 65 0 01 Dec 2023
StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter Gongye Liu Menghan Xia Yong Zhang Haoxin Chen Jinbo Xing Xintao Wang Yujiu Yang Ying Shan DiffM VGen 139 0 0 01 Dec 2023
$ART$\boldsymbol{\cdot}$V: Auto-Regressive Text-to-Video Generation with Diffusion Models$ ART $\boldsymbol{\cdot}$ V: Auto-Regressive Text-to-Video Generation with Diffusion Models Wenming Weng Ruoyu Feng Yanhui Wang Qi Dai Chunyu Wang ... Jianmin Bao Yuhui Yuan Chong Luo Yueyi Zhang Zhiwei Xiong VGen 25 32 0 30 Nov 2023
MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation Yanhui Wang Jianmin Bao Wenming Weng Ruoyu Feng Dacheng Yin ... Yuhui Yuan Chuanxin Tang Xiaoyan Sun Chong Luo Baining Guo DiffM VGen 66 15 0 30 Nov 2023
Motion-Conditioned Image Animation for Video Editing Wilson Yan Andrew Brown Pieter Abbeel Rohit Girdhar S. Azadi DiffM VGen 58 12 0 30 Nov 2023
Prompt-Based Exemplar Super-Compression and Regeneration for Class-Incremental Learning Ruxiao Duan Yaoyao Liu Jieneng Chen Adam Kortylewski Alan L. Yuille DiffM VLM 25 1 0 30 Nov 2023
4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling Sherwin Bahmani Ivan Skorokhodov Victor Rong Gordon Wetzstein Leonidas J. Guibas Peter Wonka Sergey Tulyakov Jeong Joon Park Andrea Tagliasacchi David B. Lindell DiffM 41 103 0 29 Nov 2023
VBench: Comprehensive Benchmark Suite for Video Generative Models Ziqi Huang Yinan He Jiashuo Yu Fan Zhang Chenyang Si ... Xinyuan Chen Limin Wang Dahua Lin Yu Qiao Ziwei Liu VGen 62 346 0 29 Nov 2023
Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer Danah Yatim Rafail Fridman Omer Bar-Tal Yoni Kasten Tali Dekel DiffM VGen 19 50 0 28 Nov 2023
MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video Generation Sitong Su Litao Guo Lianli Gao Hengtao Shen Jingkuan Song VGen 26 4 0 28 Nov 2023
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets A. Blattmann Tim Dockhorn Sumith Kulal Daniel Mendelevitch Maciej Kilian ... Zion English Vikram S. Voleti Adam Letts Varun Jampani Robin Rombach VGen 150 1,009 0 25 Nov 2023
Decouple Content and Motion for Conditional Image-to-Video Generation Cuifeng Shen Yulu Gan Chen Chen Xiongwei Zhu Lele Cheng Tingting Gao Jinzhi Wang VGen DiffM 20 5 0 24 Nov 2023
FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline V.Ya. Arkhipkin Zein Shaheen Viacheslav Vasilev E. Dakhova Andrey Kuznetsov Denis Dimitrov DiffM VGen 16 5 0 22 Nov 2023
MoVideo: Motion-Aware Video Generation with Diffusion Models Jingyun Liang Yuchen Fan Kai Zhang Radu Timofte Luc Van Gool Rakesh Ranjan DiffM VGen 28 10 0 19 Nov 2023
Make Pixels Dance: High-Dynamic Video Generation Yan Zeng Guoqiang Wei Jiani Zheng Jiaxin Zou Yang Wei Yuchen Zhang Hang Li DiffM VGen 19 90 0 18 Nov 2023
Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning Rohit Girdhar Mannat Singh Andrew Brown Quentin Duval S. Azadi Sai Saketh Rambhatla Akbar Shah Xi Yin Devi Parikh Ishan Misra DiffM VGen 35 189 0 17 Nov 2023
Advancements in Generative AI: A Comprehensive Review of GANs, GPT, Autoencoders, Diffusion Model, and Transformers Staphord Bengesi Hoda El-Sayed Md Kamruzzaman Sarker Yao Houkpati John Irungu T. Oladunni 45 70 0 17 Nov 2023
A Survey of AI Text-to-Image and AI Text-to-Video Generators Aditi Singh 16 19 0 10 Nov 2023
VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning on Language-Video Foundation Models Hong Chen Xin Wang Guanning Zeng Yipeng Zhang Yuwei Zhou Feilin Han Wenwu Zhu Wenwu Zhu VGen DiffM 28 1 0 02 Nov 2023
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction Xinyuan Chen Yaohui Wang Lingjun Zhang Shaobin Zhuang Xin Ma Jiashuo Yu Yali Wang Dahua Lin Yu Qiao Ziwei Liu VGen DiffM 10 126 0 31 Oct 2023
VideoCrafter1: Open Diffusion Models for High-Quality Video Generation Haoxin Chen Menghan Xia Yin-Yin He Yong Zhang Xiaodong Cun ... Yaofang Liu Qifeng Chen Xintao Wang Chao-Liang Weng Ying Shan DiffM 26 277 0 30 Oct 2023
Real-time Animation Generation and Control on Rigged Models via Large Language Models Han Huang Fernanda De La Torre Cathy Mengying Fang Andrzej Banburski-Fahey Judith Amores Jaron Lanier AI4CE 27 8 0 27 Oct 2023
FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling Haonan Qiu Menghan Xia Yong Zhang Yin-Yin He Xintao Wang Ying Shan Ziwei Liu DiffM VGen 17 88 0 23 Oct 2023
A Pytorch Reproduction of Masked Generative Image Transformer Victor Besnier Mickael Chen ViT 51 12 0 22 Oct 2023
DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors Jinbo Xing Menghan Xia Yong Zhang Haoxin Chen Wangbo Yu Hanyuan Liu Xintao Wang Tien-Tsin Wong Ying Shan VGen 28 199 0 18 Oct 2023
A Survey on Video Diffusion Models Zhen Xing Qijun Feng Haoran Chen Qi Dai Hang-Rui Hu Hang Xu Zuxuan Wu Yu-Gang Jiang EGVM VGen 55 115 0 16 Oct 2023
Video Language Planning Yilun Du Mengjiao Yang Peter R. Florence Fei Xia Ayzaan Wahid ... Pieter Abbeel Josh Tenenbaum L. Kaelbling Andy Zeng Jonathan Tompson PINN LM&Ro 89 84 0 16 Oct 2023
STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment Jaewoo Lee Jaehong Yoon Wonjae Kim Yunji Kim Sung Ju Hwang CLL 14 1 0 12 Oct 2023
Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation Lijun Yu José Lezama N. B. Gundavarapu Luca Versari Kihyuk Sohn ... Boqing Gong Ming-Hsuan Yang Irfan Essa David A. Ross Lu Jiang 10 278 0 09 Oct 2023
FashionFlow: Leveraging Diffusion Models for Dynamic Fashion Video Synthesis from Static Imagery Tasin Islam A. Miron Xiaohui Liu Yongmin Li DiffM 26 2 0 29 Sep 2023
GAIA-1: A Generative World Model for Autonomous Driving Masane Fuchi Lloyd Russell Hudson Yeo Zak Murez Hiroto Minami Alex Kendall Tomohiro Takagi Gianluca Corrado VGen 28 215 0 29 Sep 2023
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation Guy Yariv Itai Gat Sagie Benaim Lior Wolf Idan Schwartz Yossi Adi DiffM VGen 29 36 0 28 Sep 2023
Finite Scalar Quantization: VQ-VAE Made Simple Fabian Mentzer David C. Minnen E. Agustsson Michael Tschannen 28 150 0 27 Sep 2023
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning Han Lin Abhaysinh Zala Jaemin Cho Mohit Bansal LM&Ro VGen DiffM 40 74 0 26 Sep 2023
Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator Hanzhuo Huang Yufan Feng Cheng Shi Lan Xu Jingyi Yu Sibei Yang DiffM VGen 21 64 0 25 Sep 2023
The Power of Sound (TPoS): Audio Reactive Video Generation with Stable Diffusion Yujin Jeong Won-Wha Ryoo Seunghyun Lee Dabin Seo Wonmin Byeon Sangpil Kim Jinkyu Kim DiffM 24 28 0 08 Sep 2023
Explaining Vision and Language through Graphs of Events in Space and Time Mihai Masala Nicolae Cudlenco Traian Rebedea Marius Leordeanu VLM 43 2 0 29 Aug 2023
StoryBench: A Multifaceted Benchmark for Continuous Story Visualization Emanuele Bugliarello Hernan Moraldo Ruben Villegas Mohammad Babaeizadeh M. Saffar Han Zhang D. Erhan V. Ferrari Pieter-Jan Kindermans P. Voigtlaender VGen 23 10 0 22 Aug 2023
SimDA: Simple Diffusion Adapter for Efficient Video Generation Zhen Xing Qi Dai Hang-Rui Hu Zuxuan Wu Yu-Gang Jiang VGen DiffM 24 81 0 18 Aug 2023
DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory Sheng-Siang Yin Chenfei Wu Jian Liang Jie Shi Houqiang Li Gong Ming Nan Duan VGen 23 130 0 16 Aug 2023
CoDeF: Content Deformation Fields for Temporally Consistent Video Processing Ouyang Hao Qiuyu Wang Yuxi Xiao Qingyan Bai Juntao Zhang Kecheng Zheng Xiaowei Zhou Qifeng Chen Yujun Shen DiffM VGen 41 81 0 15 Aug 2023
Story Visualization by Online Text Augmentation with Context Memory Daechul Ahn Daneul Kim Gwangmo Song Seung Wook Kim Honglak Lee Dongyeop Kang Jonghyun Choi DiffM 11 4 0 15 Aug 2023
MarkovGen: Structured Prediction for Efficient Text-to-Image Generation Sadeep Jayasumana Daniel Glasner Srikumar Ramalingam Andreas Veit Ayan Chakrabarti Surinder Kumar DiffM 19 0 0 14 Aug 2023
PromptPaint: Steering Text-to-Image Generation Through Paint Medium-like Interactions John Joon Young Chung Eytan Adar DiffM 25 56 0 09 Aug 2023
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation Yin-Yin He Menghan Xia Haoxin Chen Xiaodong Cun Yuan Gong ... Yong Zhang Xintao Wang Chao-Liang Weng Ying Shan Qifeng Chen DiffM VGen 14 74 0 13 Jul 2023
ChatGPT in the Age of Generative AI and Large Language Models: A Concise Survey S. Mohamadi G. Mujtaba Ngan Le Gianfranco Doretto Don Adjeroh LM&MA AI4MH 21 21 0 09 Jul 2023
Text-Guided Synthesis of Eulerian Cinemagraphs Aniruddha Mahapatra Aliaksandr Siarohin Hsin-Ying Lee Sergey Tulyakov Junchen Zhu DiffM VGen 16 21 0 06 Jul 2023
Self-Consuming Generative Models Go MAD Sina Alemohammad Josue Casco-Rodriguez Lorenzo Luzi Ahmed Imtiaz Humayun H. Babaei Daniel LeJeune Ali Siahkoohi Richard G. Baraniuk WIGM 18 139 0 04 Jul 2023
SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs Lijun Yu Yong Cheng Zhiruo Wang Vivek Kumar Wolfgang Macherey ... Yonatan Bisk Ming Yang Kevin Patrick Murphy Alexander G. Hauptmann Lu Jiang MLLM 20 49 0 30 Jun 2023