To Create What You Tell: Generating Videos from Captions

23 April 2018

Yingwei Pan

Tao Mei

Papers citing "To Create What You Tell: Generating Videos from Captions"

35 / 35 papers shown

Title
FreePCA: Integrating Consistency Information across Long-short Frames in Training-free Long Video Generation via Principal Component Analysis Jiangtong Tan Hu Yu Jie Huang Jie Xiao Feng Zhao 67 1 0 02 May 2025
T2VPhysBench: A First-Principles Benchmark for Physical Consistency in Text-to-Video Generation Xuyang Guo Jiayan Huo Zhenmei Shi Zhao-quan Song Jiahao Zhang Jiale Zhao EGVM VGen PINN 82 1 0 01 May 2025
VACT: A Video Automatic Causal Testing System and a Benchmark Haotong Yang Qingyuan Zheng Yunjian Gao Yongkun Yang Yangbo He Zhouchen Lin Muhan Zhang VGen CML 59 0 0 08 Mar 2025
Human-Activity AGV Quality Assessment: A Benchmark Dataset and an Objective Evaluation Metric Zhichao Zhang Wei Sun Xinyue Li Yunhao Li Qihang Ge ... Zhongpeng Ji Fengyu Sun Shangling Jui Xiongkuo Min Guangtao Zhai EGVM 117 1 0 25 Nov 2024
An Online Learning Approach to Prompt-based Selection of Generative Models Xiaoyan Hu Ho-fung Leung Farzan Farnia 33 2 0 17 Oct 2024
DreamMesh: Jointly Manipulating and Texturing Triangle Meshes for Text-to-3D Generation Haibo Yang Yang Chen Yingwei Pan Ting Yao Zhineng Chen Zuxuan Wu Yu-Gang Jiang Tao Mei 30 6 0 11 Sep 2024
Motion Inversion for Video Customization Luozhou Wang Guibao Shen Yixun Liang Xin Tao Pengfei Wan Di Zhang Yijun Li Yingcong Chen VGen DiffM 34 7 0 29 Mar 2024
3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation Frank Zhang Yibo Zhang Quan Zheng R. Ma W. Hua Hujun Bao Weiwei Xu Changqing Zou 49 9 0 14 Mar 2024
A Survey of Generative AI for Intelligent Transportation Systems Huan Yan Yong Li 21 8 0 13 Dec 2023
Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer Danah Yatim Rafail Fridman Omer Bar-Tal Yoni Kasten Tali Dekel DiffM VGen 19 50 0 28 Nov 2023
FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline V.Ya. Arkhipkin Zein Shaheen Viacheslav Vasilev E. Dakhova Andrey Kuznetsov Denis Dimitrov DiffM VGen 21 5 0 22 Nov 2023
Breathing Life Into Sketches Using Text-to-Video Priors Rinon Gal Yael Vinker Yuval Alaluf Amit H. Bermano Daniel Cohen-Or Ariel Shamir Gal Chechik VGen DiffM 27 29 0 21 Nov 2023
3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with 2D Diffusion Models Haibo Yang Yang Chen Yingwei Pan Ting Yao Zhineng Chen Tao Mei 19 19 0 09 Nov 2023
ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors Jingwen Chen Yingwei Pan Ting Yao Tao Mei DiffM 24 38 0 09 Nov 2023
Control3D: Towards Controllable Text-to-3D Generation Yang Chen Yingwei Pan Yehao Li Ting Yao Tao Mei DiffM 21 45 0 09 Nov 2023
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation Xin Li Wenqing Chu Ye Wu Weihang Yuan Fanglong Liu Qi Zhang Fu Li Haocheng Feng Errui Ding Jingdong Wang VGen 45 51 0 01 Sep 2023
Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising Fu Lee Wang Wenshuo Chen Guanglu Song Han-Jia Ye Yu Liu Hongsheng Li VGen DiffM 33 88 0 29 May 2023
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models A. Blattmann Robin Rombach Huan Ling Tim Dockhorn Seung Wook Kim Sanja Fidler Karsten Kreis 3DGS VGen 72 1,010 0 18 Apr 2023
Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation Jie An Songyang Zhang Harry Yang Sonal Gupta Jia-Bin Huang Jiebo Luo Xiaoyue Yin DiffM VGen 27 106 0 17 Apr 2023
Conditional Image-to-Video Generation with Latent Flow Diffusion Models Haomiao Ni Changhao Shi Kaican Li Sharon X. Huang Martin Renqiang Min VGen DiffM 16 162 0 24 Mar 2023
Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation Tsu-jui Fu Licheng Yu Ning Zhang Cheng-Yang Fu Jong-Chyi Su William Yang Wang Sean Bell VGen 40 37 0 23 Nov 2022
Explaining Cross-Domain Recognition with Interpretable Deep Classifier Yiheng Zhang Ting Yao Zhaofan Qiu Tao Mei OOD 22 3 0 15 Nov 2022
Disentangling Content and Motion for Text-Based Neural Video Manipulation Levent Karacan Tolga Kerimouglu .Ismail .Inan Tolga Birdal Erkut Erdem Aykut Erdem 16 1 0 05 Nov 2022
Cross Modal Compression: Towards Human-comprehensible Semantic Compression Jiguo Li Chuanmin Jia Xinfeng Zhang Siwei Ma Wen Gao 9 18 0 06 Sep 2022
Word-Level Fine-Grained Story Visualization Bowen Li Thomas Lukasiewicz DiffM 3DH 31 24 0 03 Aug 2022
MaskViT: Masked Visual Pre-Training for Video Prediction Agrim Gupta Stephen Tian Yunzhi Zhang Jiajun Wu Roberto Martín-Martín Li Fei-Fei 100 110 0 23 Jun 2022
Synthetic Data -- what, why and how? James Jordon Lukasz Szpruch F. Houssiau M. Bottarelli Giovanni Cherubin Carsten Maple Samuel N. Cohen Adrian Weller 35 109 0 06 May 2022
Video Generation from Text Employing Latent Path Construction for Temporal Modeling Amir Mazaheri M. Shah 20 8 0 29 Jul 2021
Improving Generation and Evaluation of Visual Stories via Semantic Consistency A. Maharana Darryl Hannan Mohit Bansal EGVM 11 61 0 20 May 2021
VICTR: Visual Information Captured Text Representation for Text-to-Image Multimodal Tasks S. Han Siqu Long Siwen Luo Kunze Wang Josiah Poon 14 17 0 07 Oct 2020
End-to-End Video Captioning Silvio Olivastri Gurkirt Singh Fabio Cuzzolin 13 18 0 04 Apr 2019
Sparsely Grouped Multi-task Generative Adversarial Networks for Facial Attribute Manipulation Jichao Zhang Yezhi Shu Songhua Xu Gongze Cao Fan Zhong Meng Liu Xueying Qin CVBM 31 35 0 19 May 2018
MoCoGAN: Decomposing Motion and Content for Video Generation Sergey Tulyakov Ming-Yu Liu Xiaodong Yang Jan Kautz GAN 34 1,131 0 17 Jul 2017
Conditional Image Synthesis With Auxiliary Classifier GANs Augustus Odena C. Olah Jonathon Shlens GAN 224 3,190 0 30 Oct 2016
Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting Xingjian Shi Zhourong Chen Hao Wang Dit-Yan Yeung W. Wong W. Woo 203 7,902 0 13 Jun 2015