Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

18 April 2023

Sanja Fidler

Papers citing "Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models"

50 / 827 papers shown

Title
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness Dian Zheng Ziqi Huang Hongbo Liu Kai Zou Yinan He ... Y. Zhang Jingwen He Wei-Shi Zheng Yu Qiao Ziwei Liu EGVM VGen 48 3 0 27 Mar 2025
Can Video Diffusion Model Reconstruct 4D Geometry? Jinjie Mai Wenxuan Zhu Haozhe Liu Bing Li Cheng Zheng Jürgen Schmidhuber Bernard Ghanem VGen MDE 70 0 0 27 Mar 2025
FB-4D: Spatial-Temporal Coherent Dynamic 3D Content Generation with Feature Banks Jinwei Li Huan-ang Gao Wenyi Li Haohan Chi Chenyu Liu ... Yao Yao Jingwei Zhao Hongyang Li Yikai Wang Hao Zhao 73 0 0 26 Mar 2025
VPO: Aligning Text-to-Video Generation Models with Prompt Optimization Jiale Cheng Ruiliang Lyu Xiaotao Gu Xiao-Chang Liu Jiazheng Xu ... Zhuoyi Yang Yuxiao Dong Jie Tang H. Wang Minlie Huang VGen 82 0 0 26 Mar 2025
Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models Prin Phunyaphibarn Phillip Y. Lee Jaihoon Kim Minhyuk Sung DiffM 84 0 0 26 Mar 2025
Video Motion Graphs Haiyang Liu Zhan Xu Fa-Ting Hong Hsin-Ping Huang Yi Zhou Yang Zhou DiffM VGen 88 0 0 26 Mar 2025
Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency T. Liu Z. Huang Zhaoxi Chen Guangcong Wang Shoukang Hu Liao Shen Huiqiang Sun Z. Cao Wei Li Z. Liu VGen 3DGS 79 0 0 26 Mar 2025
GIViC: Generative Implicit Video Compression Ge Gao Siyue Teng Tianhao Peng Fan Zhang David Bull DiffM VGen 39 0 0 25 Mar 2025
AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset Haiyu Zhang Xinyuan Chen Yaohui Wang Xihui Liu Yunhong Wang Yu Qiao VGen 62 0 0 25 Mar 2025
Mask $^2$ DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation Tianhao Qi Jianlong Yuan Wanquan Feng Shancheng Fang Jiawei Liu Siyu Zhou Qian He Hongtao Xie Yongdong Zhang DiffM VGen 39 0 0 25 Mar 2025
MVPortrait: Text-Guided Motion and Emotion Control for Multi-view Vivid Portrait Animation Yukang Lin Hokit Fung Jianjin Xu Zeping Ren Adela S.M. Lau Guosheng Yin Xiu Li VGen 39 5 0 25 Mar 2025
Reverse Prompt: Cracking the Recipe Inside Text-to-Image Generation Zhiyao Ren Yibing Zhan B. Yu Dacheng Tao DiffM 67 0 0 25 Mar 2025
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention Xuan Ju Weicai Ye Quande Liu Qiulin Wang Xintao Wang Pengfei Wan Di Zhang Kun Gai Qiang Xu VGen 39 1 0 25 Mar 2025
FuXi-RTM: A Physics-Guided Prediction Framework with Radiative Transfer Modeling Qiusheng Huang Xiaohui Zhong Xu Fan Lei Chen Hao Li AI4TS AI4CE 47 0 0 25 Mar 2025
EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models Yufei Cai Hu Han Yuxiang Wei Shiguang Shan Xilin Chen DiffM VGen 65 0 0 25 Mar 2025
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better Zihang Lai Andrea Vedaldi 34 0 0 25 Mar 2025
DiffusedWrinkles: A Diffusion-Based Model for Data-Driven Garment Animation R. Vidaurre Elena Garces Dan Casas DiffM AI4CE 79 1 0 24 Mar 2025
Resource-Efficient Motion Control for Video Generation via Dynamic Mask Guidance Sicong Feng Jielong Yang Li Peng DiffM VGen 51 0 0 24 Mar 2025
Human Motion Unlearning Edoardo De Matteis Matteo Migliarini Alessio Sampieri Indro Spinelli Fabio Galasso MU 55 0 0 24 Mar 2025
InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment Y. Lu Qichao Wang H. Cao Xierui Wang Xiaoyin Xu Min Zhang 59 0 0 24 Mar 2025
Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation Dingcheng Zhen Shunshun Yin Shiyang Qin Hou Yi Ziwei Zhang Siyuan Liu Gan Qi Ming Tao VGen 69 0 0 24 Mar 2025
Adapting Video Diffusion Models for Time-Lapse Microscopy Alexander Holmberg Nils Mechtel Wei Ouyang DiffM VGen 49 0 0 24 Mar 2025
AMD-Hummingbird: Towards an Efficient Text-to-Video Model Takashi Isobe He Cui Dong Zhou Mengmeng Ge D. Li E. Barsoum VGen 54 0 0 24 Mar 2025
TransAnimate: Taming Layer Diffusion to Generate RGBA Video Xuewei Chen Zhimin Chen Yiren Song VGen 61 0 0 23 Mar 2025
LongDiff: Training-Free Long Video Generation in One Go Zhuoling Li Hossein Rahmani Qiuhong Ke J. Liu DiffM VGen VLM 56 0 0 23 Mar 2025
Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer Qingyu Shi Jianzong Wu Jinbin Bai J. Zhang Lu Qi X. Li Yunhai Tong 44 0 0 21 Mar 2025
Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks Bhishma Dedhia David Bourgin Krishna Kumar Singh Yuheng Li Yan Kang Zhan Xu N. Jha Y. Liu DiffM VGen 72 0 0 21 Mar 2025
Enabling Versatile Controls for Video Diffusion Models Xu Zhang Hao Zhou Haoming Qin Xiaobin Lu Jiaxing Yan Guanzhong Wang Zeyu Chen Yi Liu DiffM VGen 60 0 0 21 Mar 2025
ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos Haolin Yang Feilong Tang Ming Hu Yulong Li Junjie Guo Yexin Liu Zelin Peng Junjun He Zongyuan Ge VGen DiffM 96 0 0 20 Mar 2025
SV4D 2.0: Enhancing Spatio-Temporal Consistency in Multi-View Video Diffusion for High-Quality 4D Generation Chun-Han Yao Yiming Xie Vikram S. Voleti Huaizu Jiang Varun Jampani 3DGS VGen 65 0 0 20 Mar 2025
MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving Haiguang Wang Daqi Liu Hongwei Xie Haisong Liu Enhui Ma Kaicheng Yu Limin Wang Bing Wang VGen 67 0 0 20 Mar 2025
VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling Hyojun Go Byeongjun Park Hyelin Nam Byung-Hoon Kim Hyungjin Chung Changick Kim 3DGS VGen 92 1 0 20 Mar 2025
UniCoRN: Latent Diffusion-based Unified Controllable Image Restoration Network across Multiple Degradations Debabrata Mandal Soumitri Chattopadhyay Guansen Tong Praneeth Chakravarthula DiffM 52 0 0 20 Mar 2025
PoseTraj: Pose-Aware Trajectory Control in Video Diffusion Longbin Ji Lei Zhong Pengfei Wei Changjian Li DiffM VGen 41 0 0 20 Mar 2025
SIR-DIFF: Sparse Image Sets Restoration with Multi-View Diffusion Model Yucheng Mao Boyang Wang Nilesh Kulkarni Jeong Joon Park DiffM 58 0 0 18 Mar 2025
Advances in 4D Generation: A Survey Qiaowei Miao Kehan Li Jinsheng Quan Zhiyuan Min Shaojie Ma Yichao Xu Yi Yang Yawei Luo 51 0 0 18 Mar 2025
MusicInfuser: Making Video Diffusion Listen and Dance Susung Hong Ira Kemelmacher-Shlizerman Brian L. Curless Steven M. Seitz VGen 45 0 0 18 Mar 2025
MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation Hongyu Zhang Yufan Deng Shenghai Yuan Peng Jin Zesen Cheng Yian Zhao Chang-Shu Liu Jie Chen DiffM VGen 89 0 0 18 Mar 2025
AUTV: Creating Underwater Video Datasets with Pixel-wise Annotations Quang-Trung Truong Wong Yuk Kwan Duc Thanh Nguyen Binh-Son Hua Sai-Kit Yeung VGen 48 0 0 17 Mar 2025
TACO: Taming Diffusion for in-the-wild Video Amodal Completion Ruijie Lu Yixin Chen Yu Liu Jiaxiang Tang Junfeng Ni Diwen Wan Gang Zeng Siyuan Huang DiffM VGen 44 3 0 15 Mar 2025
DiffAD: A Unified Diffusion Modeling Approach for Autonomous Driving Tao Wang Cong Zhang Xingguang Qu Kun Li W. Liu C. Huang 56 0 0 15 Mar 2025
Neurons: Emulating the Human Visual Cortex Improves Fidelity and Interpretability in fMRI-to-Video Reconstruction Haonan Wang Qixiang Zhang Lehan Wang Xuanqi Huang Xiaomeng Li VOS VGen 60 0 0 14 Mar 2025
CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models Hao He Ceyuan Yang Shanchuan Lin Yinghao Xu Meng Wei Liangke Gui Qi Zhao Gordon Wetzstein Lu Jiang Hongsheng Li DiffM VGen 95 5 0 13 Mar 2025
V2Edit: Versatile Video Diffusion Editor for Videos and 3D Scenes Yanming Zhang Jun-Kun Chen Jipeng Lyu Yu-Xiong Wang DiffM VGen 48 0 0 13 Mar 2025
Long Context Tuning for Video Generation Yuwei Guo Ceyuan Yang Ziyan Yang Zhibei Ma Zhijie Lin Zhenheng Yang Dahua Lin Lu Jiang DiffM VGen 72 2 0 13 Mar 2025
DreamInsert: Zero-Shot Image-to-Video Object Insertion from A Single Image Qi Zhao Zhan Ma Pan Zhou VGen 67 0 0 13 Mar 2025
RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models Yijing Lin Mengqi Huang Shuhan Zhuang Zhendong Mao VGen 43 0 0 13 Mar 2025
Other Vehicle Trajectories Are Also Needed: A Driving World Model Unifies Ego-Other Vehicle Trajectories in Video Latent Space Jian Zhu Zhengyu Jia Tian Gao Jiaxin Deng Shidi Li Fu Liu Peng Jia Xianpeng Lang Xiaolong Sun VGen 104 0 0 12 Mar 2025
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation Hyeonho Jeong Suhyeon Lee Jong Chul Ye VGen 101 0 0 12 Mar 2025
Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework Jing Wang Fengzhuo Zhang Xiaoli Li Vincent Y. F. Tan Tianyu Pang Chao Du Aixin Sun Zhuoran Yang VGen 59 1 0 12 Mar 2025