Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

18 April 2023

Sanja Fidler

Papers citing "Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models"

50 / 827 papers shown

Title
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation Jing Wang Ao Ma Ke Cao Jun Zheng Zhanjie Zhang ... Yuhang Ma Bo Cheng Dawei Leng Yuhui Yin Xiaodan Liang VGen 87 3 0 11 Mar 2025
Identity Preserving Latent Diffusion for Brain Aging Modeling Gexin Huang Zhangsihao Yang Yalin Wang Guido Gerig Mengwei Ren Xiaoxiao Li MedIm DiffM 72 0 0 11 Mar 2025
AnyMoLe: Any Character Motion In-betweening Leveraging Video Diffusion Models Kwan Yun Seokhyeon Hong Chaelin Kim Junyong Noh DiffM VGen 43 0 0 11 Mar 2025
VRMDiff: Text-Guided Video Referring Matting Generation of Diffusion Lehan Yang Jincen Song Tianlong Wang Daiqing Qi Weili Shi Yuheng Liu Sheng Li DiffM VOS VGen 69 0 0 11 Mar 2025
AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion Mingzhen Sun Weining Wang Gen Li Jiawei Liu Jiahui Sun Wanquan Feng Shanshan Lao Siyu Zhou Qian He J. Liu DiffM VGen 76 3 0 10 Mar 2025
TimeStep Master: Asymmetrical Mixture of Timestep LoRA Experts for Versatile and Efficient Diffusion Models in Vision Shaobin Zhuang Yiwei Guo Yanbo Ding Kunchang Li Xinyuan Chen Yaohui Wang Fangyikang Wang Ying Zhang Chen Li Y. Wang 43 0 0 10 Mar 2025
Automated Movie Generation via Multi-Agent CoT Planning Weijia Wu Zeyu Zhu Mike Zheng Shou VGen 72 1 0 10 Mar 2025
VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation Hritik Bansal Clark Peng Yonatan Bitton Roman Goldenberg Aditya Grover Kai-Wei Chang EGVM VGen 49 2 0 09 Mar 2025
LightMotion: A Light and Tuning-free Method for Simulating Camera Motion in Video Generation Quanjian Song Zhihang Lin Zhanpeng Zeng Ziyue Zhang Liujuan Cao Rongrong Ji VGen 61 0 0 09 Mar 2025
Generative Video Bi-flow Chen Liu Tobias Ritschel DiffM VGen 44 0 0 09 Mar 2025
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation Runze Zhang Guoguang Du Xiaochuan Li Qi Jia Liang Jin ... Zhenhua Guo Yaqian Zhao Xiaoli Gong Rengang Li Baoyu Fan VGen 73 0 0 08 Mar 2025
Text2Story: Advancing Video Storytelling with Text Guidance Taewon Kang D. Kothandaraman Ming C. Lin DiffM VGen 59 0 0 08 Mar 2025
TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models Mark YU Wenbo Hu Jinbo Xing Ying Shan VGen 85 3 0 07 Mar 2025
How to Move Your Dragon: Text-to-Motion Synthesis for Large-Vocabulary Objects Wonkwang Lee Jongwon Jeong Taehong Moon Hyeon-Jong Kim Jaehyeon Kim Gunhee Kim Byeong-Uk Lee DiffM 52 0 0 06 Mar 2025
FluidNexus: 3D Fluid Reconstruction and Prediction from a Single Video Yue Gao Hong-Xing Yu Bo Zhu Jiajun Wu VGen 57 1 0 06 Mar 2025
FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion Ziyi Yang Fanqi Wan Longguang Zhong Canbin Huang Guosheng Liang Xiaojun Quan MoMe 90 0 0 06 Mar 2025
GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control Xuanchi Ren Tianchang Shen Jiahui Huang Huan Ling Yifan Lu Merlin Nimier-David Thomas Muller Alexander Keller Sanja Fidler Jun Gao DiffM VGen 74 8 0 05 Mar 2025
GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning Zhun Mou Bin Xia Zhengchao Huang Wenming Yang Jiaya Jia VGen ELM LRM 63 0 0 04 Mar 2025
SPG: Improving Motion Diffusion by Smooth Perturbation Guidance Boseong Jeon DiffM 45 0 0 04 Mar 2025
Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models Jay Zhangjie Wu Yuxuan Zhang Haithem Turki Xuanchi Ren Jun Gao Mike Zheng Shou Sanja Fidler Zan Gojcic Huan Ling 77 1 0 03 Mar 2025
KeyFace: Expressive Audio-Driven Facial Animation for Long Sequences via KeyFrame Interpolation Antoni Bigata Michał Stypułkowski Rodrigo Mira Stella Bounareli Konstantinos Vougioukas Zoe Landgraf Nikita Drobyshev Maciej Ziȩba Stavros Petridis M. Pantic DiffM VGen 63 2 0 03 Mar 2025
WeGen: A Unified Model for Interactive Multimodal Generation as We Chat Zhipeng Huang Shaobin Zhuang Canmiao Fu Binxin Yang Ying Zhang Chong Sun Zhizheng Zhang Yali Wang Chen Li Zheng-Jun Zha DiffM 69 1 0 03 Mar 2025
Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think Jie Tian Xiaoye Qu Zhenyi Lu Wei Wei Sichen Liu Yu-Xi Cheng DiffM VGen 44 0 0 02 Mar 2025
Dynamical Diffusion: Learning Temporal Dynamics with Diffusion Models Xingzhuo Guo Yu Zhang Baixu Chen Haoran Xu J. Z. Wang Mingsheng Long DiffM AI4TS 29 1 0 02 Mar 2025
FaceShot: Bring Any Character into Life Junyao Gao Yanan Sun Fei Shen Xin Jiang Zhening Xing Kai-xiang Chen Cairong Zhao CVBM 3DH 40 1 0 02 Mar 2025
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning Shashank Gupta Chaitanya Ahuja Tsung-Yu Lin Sreya Dutta Roy Harrie Oosterhuis Maarten de Rijke Satya Narayan Shukla 46 1 0 02 Mar 2025
Learning to Animate Images from A Few Videos to Portray Delicate Human Actions Haoxin Li Yingchen Yu Qilong Wu Hanwang Zhang Boyang Li Song Bai 3DH VGen 90 0 0 01 Mar 2025
EigenActor: Variant Body-Object Interaction Generation Evolved from Invariant Action Basis Reasoning Xuehao Gao Yang Yang Shaoyi Du Yang Wu Y. Liu Guo-Jun Qi 31 1 0 01 Mar 2025
Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos Zhiyu Tan Junyan Wang Hao Yang Luozheng Qin Hesen Chen Qiang-feng Zhou Hao Li VGen 64 0 0 28 Feb 2025
BEVDiffuser: Plug-and-Play Diffusion Model for BEV Denoising with Ground-Truth Guidance Xin Ye Burhaneddin Yaman Sheng Cheng Feng Tao Abhirup Mallik Liu Ren DiffM 63 1 0 27 Feb 2025
Glad: A Streaming Scene Generator for Autonomous Driving Bin Xie Yingfei Liu Tiancai Wang Jiale Cao X. Zhang 3DGS VGen 44 1 0 26 Feb 2025
ASurvey: Spatiotemporal Consistency in Video Generation Zhiyu Yin Kehai Chen Xuefeng Bai Ruili Jiang J. Li Hongdong Li Jin Liu Yang Xiang Jun Yu Min Zhang EGVM VGen AI4TS 54 0 0 25 Feb 2025
ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation Yifan Pu Yiming Zhao Zhicong Tang Ruihong Yin Haoxing Ye ... Ji Li Xiu Li Z. Lian Gao Huang Baining Guo DiffM 62 1 0 25 Feb 2025
Improved Diffusion-based Generative Model with Better Adversarial Robustness Zekun Wang Mingyang Yi Shuchen Xue Z. Li Ming Liu Bing Qin Zhi-Ming Ma DiffM 37 0 0 24 Feb 2025
PuzzleFusion++: Auto-agglomerative 3D Fracture Assembly by Denoise and Verify Zhengqing Wang Jiacheng Chen Yasutaka Furukawa 62 5 0 24 Feb 2025
VaViM and VaVAM: Autonomous Driving through Video Generative Modeling Florent Bartoccioni Elias Ramzi Victor Besnier Shashanka Venkataramanan Tuan-Hung Vu ... Mickael Chen Éloi Zablocki Andrei Bursuc Eduardo Valle Matthieu Cord VGen 78 1 0 24 Feb 2025
Human2Robot: Learning Robot Actions from Paired Human-Robot Videos Sicheng Xie Haidong Cao Zejia Weng Zhen Xing Shiwei Shen Jiaqi Leng Xipeng Qiu Yanwei Fu Zuxuan Wu Yu Jiang 49 0 0 23 Feb 2025
SMITE: Segment Me In TimE Amirhossein Alimohammadi Sauradip Nag Saeid Asgari Taghanaki Andrea Tagliasacchi Ghassan Hamarneh Ali Mahdavi-Amiri VLM VOS 87 2 0 20 Feb 2025
FreqPrior: Improving Video Diffusion Models with Frequency Filtering Gaussian Noise Yunlong Yuan Yuanfan Guo Chunwei Wang Wei Zhang Hang Xu L. Zhang DiffM VGen 108 1 0 20 Feb 2025
MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching Yen-Siang Wu Chi-Pin Huang Fu-En Yang Yu-Jie Wang DiffM VGen 54 1 0 18 Feb 2025
MALT Diffusion: Memory-Augmented Latent Transformers for Any-Length Video Generation Sihyun Yu Meera Hahn Dan Kondratyuk Jinwoo Shin Agrim Gupta José Lezama Irfan Essa David A. Ross Jonathan Huang DiffM VGen 72 0 0 18 Feb 2025
Diffusion Models without Classifier-free Guidance Zhicong Tang Jianmin Bao Dong Chen Baining Guo VLM 55 2 0 17 Feb 2025
Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening Ye Tian L. Yang Xinchen Zhang Yunhai Tong Mengdi Wang Bin Cui 65 1 0 17 Feb 2025
MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction Jingcheng Ni Yuxin Guo Yichen Liu Rui Chen Lewei Lu Z. Wu DiffM VGen 59 3 0 17 Feb 2025
When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding Pingping Zhang Jinlong Li Kecheng Chen Meng Wang Long Xu Haoliang Li N. Sebe Sam Kwong Shiqi Wang VGen 118 3 0 17 Feb 2025
A Reversible Solver for Diffusion SDEs Zander Blasingame Chen Liu DiffM 54 0 0 12 Feb 2025
Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance Li Hu Guangyuan Wang Zhen Shen Xin Gao Dechao Meng Lian Zhuo Peng Zhang Bang Zhang Liefeng Bo DiffM VGen 93 7 0 10 Feb 2025
History-Guided Video Diffusion Kiwhan Song Boyuan Chen Max Simchowitz Yilun Du Russ Tedrake Vincent Sitzmann VGen 109 7 0 10 Feb 2025
A Physical Coherence Benchmark for Evaluating Video Generation Models via Optical Flow-guided Frame Prediction Yongfan Chen Xiuwen Zhu Tianyu Li EGVM VGen 56 3 0 08 Feb 2025
AdaFlow: Efficient Long Video Editing via Adaptive Attention Slimming And Keyframe Selection Shuheng Zhang Y. Liu Hongbo Zhou Jun Peng Yiyi Zhou Xiaoshuai Sun Rongrong Ji VGen 38 0 0 08 Feb 2025