Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

18 April 2023

Sanja Fidler

Papers citing "Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models"

50 / 827 papers shown

Title
Motion Consistency Model: Accelerating Video Diffusion with Disentangled Motion-Appearance Distillation Yuanhao Zhai Kevin Lin Zhengyuan Yang Linjie Li Jianfeng Wang Chung-Ching Lin David Doermann Junsong Yuan Lijuan Wang VGen DiffM 33 9 0 11 Jun 2024
NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing Ting-Hsuan Chen Jiewen Chan Hau-Shiang Shiu Shih-Han Yen Chang-Han Yeh Yu-Lun Liu VGen DiffM 40 3 0 10 Jun 2024
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction Zhen Xing Qi Dai Zejia Weng Zuxuan Wu Yu-Gang Jiang VGen 39 14 0 10 Jun 2024
Compositional Video Generation as Flow Equalization Xingyi Yang Xinchao Wang DiffM VGen 58 7 0 10 Jun 2024
Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion Ge Ya Luo Zhi Hao Luo Anthony Gosselin Alexia Jolicoeur-Martineau Christopher Pal VGen DiffM 24 0 0 09 Jun 2024
MotionClone: Training-Free Motion Cloning for Controllable Video Generation Pengyang Ling Jiazi Bu Pan Zhang Xiaoyi Dong Yuhang Zang Tong Wu H. Chen Jiaqi Wang Yi Jin VGen DiffM 31 34 0 08 Jun 2024
CoNo: Consistency Noise Injection for Tuning-free Long Video Diffusion Xingrui Wang Xin Li Zhibo Chen DiffM 42 1 0 07 Jun 2024
Zero-Shot Video Editing through Adaptive Sliding Score Distillation Lianghan Zhu Yanqi Bao Jing Huo Jing Wu Yu-Kun Lai Wenbin Li Yang Gao VGen 23 2 0 07 Jun 2024
Ada-VE: Training-Free Consistent Video Editing Using Adaptive Motion Prior Tanvir Mahmud Mustafa Munir R. Marculescu Diana Marculescu VGen 27 0 0 07 Jun 2024
STAR: Skeleton-aware Text-based 4D Avatar Generation with In-Network Motion Retargeting Zenghao Chai Chen Tang Yongkang Wong Mohan Kankanhalli DiffM 27 7 0 07 Jun 2024
SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound Rishit Dagli Shivesh Prakash Robert Wu H. Khosravani 31 3 0 06 Jun 2024
BitsFusion: 1.99 bits Weight Quantization of Diffusion Model Yang Sui Yanyu Li Anil Kag Yerlan Idelbayev Junli Cao Ju Hu Dhritiman Sagar Bo Yuan Sergey Tulyakov Jian Ren MQ 39 18 0 06 Jun 2024
SF-V: Single Forward Video Generation Model Zhixing Zhang Yanyu Li Yushu Wu Yanwu Xu Anil Kag ... Aliaksandr Siarohin Junli Cao Dimitris N. Metaxas Sergey Tulyakov Jian Ren DiffM VGen 31 9 0 06 Jun 2024
VideoPhy: Evaluating Physical Commonsense for Video Generation Hritik Bansal Zongyu Lin Tianyi Xie Zeshun Zong Michal Yarom Yonatan Bitton Chenfanfu Jiang Yizhou Sun Kai-Wei Chang Aditya Grover EGVM VGen 32 36 0 05 Jun 2024
Searching Priors Makes Text-to-Video Synthesis Better Haoran Cheng Liang Peng Linxuan Xia Yuepeng Hu Hengjia Li Qinglin Lu Xiaofei He Boxi Wu VGen DiffM 28 0 0 05 Jun 2024
U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation Chenxin Li Xinyu Liu W. J. Li Cheng Wang Hengyu Liu Yifan Liu Zhen Chen Yixuan Yuan MedIm DiffM SSeg 46 114 0 05 Jun 2024
Dreamguider: Improved Training free Diffusion-based Conditional Generation Nithin Gopalakrishnan Nair Vishal M. Patel 30 2 0 04 Jun 2024
CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation Dejia Xu Weili Nie Chao Liu Sifei Liu Jan Kautz Zhangyang Wang Arash Vahdat DiffM VGen 74 52 0 04 Jun 2024
Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation Clement Chadebec O. Tasar Eyal Benaroche Benjamin Aubin VLM 60 8 0 04 Jun 2024
Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation Y. Ma Hongyu Liu H. Wang Heng Pan Yingqing He ... Ailing Zeng Chengfei Cai H. Shum W. Liu Qifeng Chen 29 52 0 04 Jun 2024
ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation Tianchen Zhao Tongcheng Fang Haofeng Huang Enshu Liu Widyadewi Soedarmadji ... Shengen Yan Huazhong Yang Xuefei Ning Xuefei Ning Yu Wang MQ VGen 97 23 0 04 Jun 2024
Learning Temporally Consistent Video Depth from Video Diffusion Priors Jiahao Shao Yuanbo Yang Hongyu Zhou Youmin Zhang Yujun Shen Matteo Poggi Yiyi Liao VGen DiffM MDE 34 38 0 03 Jun 2024
UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation Xiang Wang Shiwei Zhang Changxin Gao Jiayu Wang Xiaoqiang Zhou Yingya Zhang Luxin Yan Nong Sang VGen 62 30 0 03 Jun 2024
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation Shaoshu Yang Yong Zhang Xiaodong Cun Ying Shan Ran He VGen DiffM 38 2 0 03 Jun 2024
EchoNet-Synthetic: Privacy-preserving Video Generation for Safe Medical Data Sharing Hadrien Reynaud Qingjie Meng Mischa Dombrowski Arijit Ghosh Thomas Day Alberto Gomez Paul Leeson Bernhard Kainz MedIm 18 8 0 02 Jun 2024
VividDream: Generating 3D Scene with Ambient Dynamics Yao-Chih Lee Yi-Ting Chen Andrew Wang Ting-Hsuan Liao Brandon Y. Feng Jia-Bin Huang VGen 32 10 0 30 May 2024
CV-VAE: A Compatible Video VAE for Latent Generative Video Models Sijie Zhao Yong Zhang Xiaodong Cun Shaoshu Yang Muyao Niu Xiaoyu Li Wenbo Hu Ying Shan DiffM 59 23 0 30 May 2024
PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting Qiaowei Miao Yawei Luo Yi Yang 3DGS DiffM 41 7 0 30 May 2024
T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback Jiachen Li Weixi Feng Tsu-jui Fu Xinyi Wang Sugato Basu Wenhu Chen William Yang Wang VGen 29 27 0 29 May 2024
Multi-Condition Latent Diffusion Network for Scene-Aware Neural Human Motion Prediction Xuehao Gao Yang Yang Yang Wu Shaoyi Du Guo-Jun Qi DiffM 3DH 41 5 0 29 May 2024
VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers Jun Zheng Fuwei Zhao Youjiang Xu Xin Dong Xiaodan Liang VGen DiffM 33 5 0 28 May 2024
VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation Qilin Wang Zhengkai Jiang Chengming Xu Jiangning Zhang Yabiao Wang Xinyi Zhang Yunkang Cao Weijian Cao Chengjie Wang Yanwei Fu VGen 24 9 0 28 May 2024
EG4D: Explicit Generation of 4D Object without Score Distillation Qi Sun Zhiyang Guo Ziyu Wan Jing Nathan Yan Shengming Yin Wen-gang Zhou Jing Liao Houqiang Li VGen 3DGS 32 13 0 28 May 2024
ToonCrafter: Generative Cartoon Interpolation Jinbo Xing Hanyuan Liu Menghan Xia Yong Zhang Xintao Wang Ying Shan Tien-Tsin Wong 32 27 0 28 May 2024
RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance JiaoJiao Fan Haotian Xue Qinsheng Zhang Yongxin Chen 30 1 0 27 May 2024
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control Zhengfei Kuang Shengqu Cai Hao He Yinghao Xu Hongsheng Li Leonidas J. Guibas Gordon Wetzstein VGen DiffM 38 30 0 27 May 2024
Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability Shenyuan Gao Jiazhi Yang Li Chen Kashyap Chitta Yihang Qiu Andreas Geiger Jun Zhang Hongyang Li 60 75 0 27 May 2024
Controllable Longer Image Animation with Diffusion Models Qiang Wang Minghua Liu Junjun Hu Fan Jiang Mu Xu VGen 30 0 0 27 May 2024
Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models Hanwen Liang Yuyang Yin Dejia Xu Hanxue Liang Zhangyang Wang Konstantinos N. Plataniotis Yao Zhao Yunchao Wei VGen 53 38 0 26 May 2024
Memory-efficient High-resolution OCT Volume Synthesis with Cascaded Amortized Latent Diffusion Models Kun Huang Xiao Ma Yuhan Zhang Na Su Songtao Yuan Yong Liu Qiang Chen Huazhu Fu MedIm DiffM 35 3 0 26 May 2024
User-Friendly Customized Generation with Multi-Modal Prompts Linhao Zhong Yan Hong Wentao Chen Binglin Zhou Yiyi Zhang Jianfu Zhang Liqing Zhang DiffM 37 0 0 26 May 2024
Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer Zichen Geng Caren Han Zeeshan Hayder Jian Liu Mubarak Shah Ajmal Saeed Mian 27 3 0 24 May 2024
iVideoGPT: Interactive VideoGPTs are Scalable World Models Jialong Wu Shaofeng Yin Ningya Feng Xu He Dong Li Jianye Hao Mingsheng Long VGen 35 23 0 24 May 2024
Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis Basile Van Hoorick Rundi Wu Ege Ozguroglu Kyle Sargent Ruoshi Liu P. Tokmakov Achal Dave Changxi Zheng Carl Vondrick DiffM VGen 50 29 0 23 May 2024
Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation Shiqi Yang Zhi-Wei Zhong Mengjie Zhao Shusuke Takahashi Masato Ishii Takashi Shibuya Yuki Mitsufuji 43 2 0 23 May 2024
LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models Seyedmorteza Sadat Jakob Buhmann Derek Bradley Otmar Hilliges Romann M. Weber 44 9 0 23 May 2024
AdjointDEIS: Efficient Gradients for Diffusion Models Zander Blasingame Chen Liu DiffM 35 2 0 23 May 2024
Text Prompting for Multi-Concept Video Customization by Autoregressive Generation D. Kothandaraman Kihyuk Sohn Ruben Villegas P. Voigtlaender Dinesh Manocha Mohammad Babaeizadeh VGen DiffM 35 2 0 22 May 2024
A Versatile Diffusion Transformer with Mixture of Noise Levels for Audiovisual Generation Gwanghyun Kim Alonso Martinez Yu-Chuan Su Brendan Jou José Lezama ... Lijun Yu Lu Jiang A. Jansen Jacob Walker Krishna Somandepalli 28 8 0 22 May 2024
MotionCraft: Physics-based Zero-Shot Video Generation L. S. Aira Antonio Montanaro Emanuele Aiello D. Valsesia E. Magli DiffM VGen 26 9 0 22 May 2024