Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

18 April 2023

Sanja Fidler

Papers citing "Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models"

50 / 827 papers shown

Title
Video as the New Language for Real-World Decision Making Sherry Yang Jacob Walker Jack Parker-Holder Yilun Du Jake Bruce Andre Barreto Pieter Abbeel Dale Schuurmans VGen 24 45 0 27 Feb 2024
Diffusion Model-Based Image Editing: A Survey Yi Huang Jiancheng Huang Yifan Liu Mingfu Yan Jiaxi Lv Jianzhuang Liu Wei Xiong He Zhang Liangliang Cao Liangliang Cao EGVM 66 85 0 27 Feb 2024
Genie: Generative Interactive Environments Jake Bruce Michael Dennis Ashley D. Edwards Jack Parker-Holder Yuge Shi ... Konrad Zolna Jeff Clune Nando de Freitas Satinder Singh Tim Rocktaschel VGen VLM 64 144 0 23 Feb 2024
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis Willi Menapace Aliaksandr Siarohin Ivan Skorokhodov Ekaterina Deyneka Tsai-Shien Chen ... Yuwei Fang A. Stoliar Elisa Ricci Jian Ren Sergey Tulyakov VGen 38 56 0 22 Feb 2024
Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models Yixuan Ren Yang Zhou Jimei Yang Jing Shi Difan Liu Feng Liu Mingi Kwon Abhinav Shrivastava DiffM VGen 94 34 0 22 Feb 2024
SDXL-Lightning: Progressive Adversarial Diffusion Distillation Shanchuan Lin Anran Wang Xiao Yang 29 116 0 21 Feb 2024
UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing Jianhong Bai Tianyu He Yuchi Wang Junliang Guo Haoji Hu Zuozhu Liu Jiang Bian VGen 24 26 0 20 Feb 2024
VGMShield: Mitigating Misuse of Video Generative Models Yan Pang Yang Zhang Tianhao Wang 34 3 0 20 Feb 2024
Using Left and Right Brains Together: Towards Vision and Language Planning Jun Cen Chenfei Wu Xiao Liu Sheng-Siang Yin Yixuan Pei Jinglong Yang Qifeng Chen Nan Duan Jianguo Zhang 56 3 0 16 Feb 2024
Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation Lanqing Guo Yin-Yin He Haoxin Chen Menghan Xia Xiaodong Cun ... Yong Zhang Xintao Wang Qifeng Chen Ying Shan Bihan Wen 27 23 0 16 Feb 2024
Magic-Me: Identity-Specific Video Customized Diffusion Ze Ma Daquan Zhou Chun-Hsiao Yeh Xue-She Wang Xiuyu Li Huanrui Yang Zhen Dong Kurt Keutzer Jiashi Feng VGen DiffM 32 31 0 14 Feb 2024
Extreme Video Compression with Pre-trained Diffusion Models Bohan Li Yiming Liu Xueyan Niu Bo Bai Lei Deng Deniz Gündüz DiffM VGen 21 3 0 14 Feb 2024
Rolling Diffusion Models David Ruhe Jonathan Heek Tim Salimans Emiel Hoogeboom DiffM 28 32 0 12 Feb 2024
Stable Autonomous Flow Matching Christopher Iliffe Sprague Arne Elofsson Hossein Azizpour 33 1 0 08 Feb 2024
Fast Timing-Conditioned Latent Audio Diffusion Zach Evans CJ Carr Josiah Taylor Scott H. Hawley Jordi Pons DiffM 74 101 0 07 Feb 2024
ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation Weiming Ren Harry Yang Ge Zhang Cong Wei Xinrun Du Stephen W. Huang Wenhu Chen DiffM VGen 76 53 0 06 Feb 2024
Denoising Diffusion via Image-Based Rendering Titas Anciukevicius Fabian Manhardt Federico Tombari Paul Henderson 40 11 0 05 Feb 2024
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion Shiyuan Yang Liang Hou Haibin Huang Chongyang Ma Pengfei Wan Di Zhang Xiaodong Chen Jing Liao VGen DiffM 64 77 0 05 Feb 2024
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization Yang Jin Zhicheng Sun Kun Xu Kun Xu Liwei Chen ... Yuliang Liu Di Zhang Yang Song Kun Gai Yadong Mu VGen 47 42 0 05 Feb 2024
InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions Yiyuan Zhang Yuhao Kang Zhixin Zhang Xiaohan Ding Sanyuan Zhao Xiangyu Yue VGen 52 4 0 05 Feb 2024
PRIME: Protect Your Videos From Malicious Editing Guanlin Li Shuai Yang Jie M. Zhang Tianwei Zhang 43 1 0 02 Feb 2024
AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning Fu-Yun Wang Zhaoyang Huang Xiaoyu Shi Weikang Bian Guanglu Song Yu Liu Hongsheng Li 13 16 0 01 Feb 2024
CapHuman: Capture Your Moments in Parallel Universes Chao Liang Fan Ma Linchao Zhu Yingying Deng Yi Yang DiffM 21 22 0 01 Feb 2024
A Survey on Generative AI and LLM for Video Generation, Understanding, and Streaming Pengyuan Zhou Lin Wang Zhi Liu Yanbin Hao Pan Hui Sasu Tarkoma J. Kangasharju VGen 34 26 0 30 Jan 2024
Diffutoon: High-Resolution Editable Toon Shading via Diffusion Models Zhongjie Duan Chengyu Wang Cen Chen Weining Qian Jun Huang DiffM 20 7 0 29 Jan 2024
Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling Xiaoyu Shi Zhaoyang Huang Fu-Yun Wang Weikang Bian Dasong Li ... Ka Chun Cheung Simon See Hongwei Qin Jifeng Da Hongsheng Li VGen DiffM 33 80 0 29 Jan 2024
Do You Guys Want to Dance: Zero-Shot Compositional Human Dance Generation with Multiple Persons Zhe Xu Kun-Juan Wei Xu Yang Cheng Deng DiffM 20 4 0 24 Jan 2024
Lumiere: A Space-Time Diffusion Model for Video Generation Omer Bar-Tal Hila Chefer Omer Tov Charles Herrmann Roni Paiss ... T. Michaeli Oliver Wang Deqing Sun Tali Dekel Inbar Mosseri VGen 104 215 0 23 Jan 2024
DDMI: Domain-Agnostic Latent Diffusion Models for Synthesizing High-Quality Implicit Neural Representations Dogyun Park S. Kim Sojin Lee Hyunwoo J. Kim DiffM 30 7 0 23 Jan 2024
Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass Diffusion Transformers Katherine Crowson Stefan Andreas Baumann Alex Birch Tanishq Mathew Abraham Daniel Z. Kaplan Enrico Shippole 21 48 0 21 Jan 2024
ActAnywhere: Subject-Aware Video Background Generation Boxiao Pan Zhan Xu Chun-Hao Paul Huang Krishna Kumar Singh Yang Zhou Leonidas J. Guibas Jimei Yang VGen DiffM 24 3 0 19 Jan 2024
Inflation with Diffusion: Efficient Temporal Adaptation for Text-to-Video Super-Resolution Xin Yuan Jinoo Baek Keyang Xu Omer Tov Hongliang Fei VGen 29 3 0 18 Jan 2024
WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens Xiaofeng Wang Zheng Zhu Guan Huang Boyuan Wang Xinze Chen Jiwen Lu VGen 32 32 0 18 Jan 2024
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects Zhao Wang Aoxue Li Lingting Zhu Yong Guo Qi Dou Zhenguo Li VGen DiffM 22 40 0 18 Jan 2024
Vlogger: Make Your Dream A Vlog Shaobin Zhuang Kunchang Li Xinyuan Chen Yaohui Wang Ziwei Liu Yu Qiao Yali Wang VGen DiffM 22 34 0 17 Jan 2024
UniVG: Towards UNIfied-modal Video Generation Ludan Ruan Lei Tian Chuanwei Huang Xu Zhang Xinyan Xiao VGen DiffM 23 3 0 17 Jan 2024
VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models Haoxin Chen Yong Zhang Xiaodong Cun Menghan Xia Xintao Wang Chao-Liang Weng Ying Shan VGen DiffM 115 274 0 17 Jan 2024
SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers Nanye Ma Mark Goldstein M. S. Albergo Nicholas M. Boffi Eric Vanden-Eijnden Saining Xie DiffM 27 163 0 16 Jan 2024
Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities Xu Yan Haiming Zhang Yingjie Cai Jingming Guo Weichao Qiu ... Lihui Jiang Wei Zhang Hongbo Zhang Dengxin Dai Bingbing Liu 54 17 0 16 Jan 2024
Towards A Better Metric for Text-to-Video Generation Jay Zhangjie Wu Guian Fang Haoning Wu Xintao Wang Yixiao Ge ... Rui Zhao Weisi Lin Wynne Hsu Ying Shan Mike Zheng Shou VGen 29 34 0 15 Jan 2024
Collaboratively Self-supervised Video Representation Learning for Action Recognition Jie M. Zhang Zhifan Wan Lanqing Hu Stephen Lin Shuzhe Wu Shiguang Shan TTA 56 1 0 15 Jan 2024
RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks Partha Ghosh Soubhik Sanyal Cordelia Schmid Bernhard Scholkopf VGen 30 1 0 11 Jan 2024
Object-Centric Diffusion for Efficient Video Editing Kumara Kahatapitiya Adil Karjauv Davide Abati Fatih Porikli Yuki M. Asano A. Habibian VGen 32 12 0 11 Jan 2024
Dynamic Addition of Noise in a Diffusion Model for Anomaly Detection Justin Tebbe Jawad Tayyub DiffM 26 4 0 09 Jan 2024
Fair Sampling in Diffusion Models through Switching Mechanism Yujin Choi Jinseong Park Hoki Kim Jaewook Lee Saeroom Park DiffM 16 6 0 06 Jan 2024
Latte: Latent Diffusion Transformer for Video Generation Xin Ma Yaohui Wang Gengyun Jia Xinyuan Chen Z. Liu Yuan-Fang Li Cunjian Chen Yu Qiao DiffM VGen 123 233 0 05 Jan 2024
VASE: Object-Centric Appearance and Shape Manipulation of Real Videos E. Peruzzo Vidit Goel Dejia Xu Xingqian Xu Yifan Jiang Zhangyang Wang Humphrey Shi N. Sebe LM&Ro VGen DiffM 62 9 0 04 Jan 2024
Bring Metric Functions into Diffusion Models Jie An Zhengyuan Yang Jianfeng Wang Linjie Li Zicheng Liu Lijuan Wang Jiebo Luo DiffM 29 3 0 04 Jan 2024
Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions David Junhao Zhang Dongxu Li Hung Le Mike Zheng Shou Caiming Xiong Doyen Sahoo VGen 14 23 0 03 Jan 2024
AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI Fanda Fan Chunjie Luo Wanling Gao Jianfeng Zhan 77 14 0 03 Jan 2024