M3L: Language-based Video Editing via Multi-Modal Multi-Level Transformers

2 April 2021

Papers citing "M3L: Language-based Video Editing via Multi-Modal Multi-Level Transformers"

5 / 5 papers shown

Title
Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation Tsu-jui Fu Licheng Yu Ning Zhang Cheng-Yang Fu Jong-Chyi Su William Yang Wang Sean Bell VGen 56 37 0 23 Nov 2022
An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling Tsu-jui Fu Linjie Li Zhe Gan Kevin Qinghong Lin William Yang Wang Lijuan Wang Zicheng Liu VLM 19 63 0 04 Sep 2022
Real-time Localized Photorealistic Video Style Transfer Xide Xia Tianfan Xue Wei-Sheng Lai Zheng Sun Abby Chang Brian Kulis Jiawen Chen 51 30 0 20 Oct 2020
Disentangling Physical Dynamics from Unknown Factors for Unsupervised Video Prediction Vincent Le Guen Nicolas Thome AI4CE PINN 89 288 0 03 Mar 2020
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 297 10,216 0 16 Nov 2016