Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

18 April 2023

Sanja Fidler

Papers citing "Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models"

50 / 827 papers shown

Title
LT3SD: Latent Trees for 3D Scene Diffusion Quan Meng Lei Li Matthias Nießner Angela Dai 94 10 0 12 Sep 2024
Alignment of Diffusion Models: Fundamentals, Challenges, and Future Buhua Liu Shitong Shao Bao Li Lichen Bai Zhiqiang Xu Haoyi Xiong James Kwok Sumi Helal Zeke Xie 37 11 0 11 Sep 2024
Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion Models Rohit Jena Ali Taghibakhshi Sahil Jain Gerald Shen Nima Tajbakhsh Arash Vahdat 38 3 0 09 Sep 2024
DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation Wei Yu Wu Xi Guo Weixuan Tang Tingxuan Huang Chiyu Wang Dongyue Chen C. Ding VGen 30 6 0 09 Sep 2024
DreamForge: Motion-Aware Autoregressive Video Generation for Multi-View Driving Scenes Jianbiao Mei Yukai Ma Xuemeng Yang Licheng Wen Tiantian Wei Min Dou Yukai Ma Min Dou Botian Shi Yong Liu DiffM VGen 62 3 0 06 Sep 2024
DKDM: Data-Free Knowledge Distillation for Diffusion Models with Any Architecture Qianlong Xiang Miao Zhang Yuzhang Shang Jianlong Wu Yan Yan Liqiang Nie DiffM 55 9 0 05 Sep 2024
CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention Gaojie Lin Jianwen Jiang Chao Liang Tianyun Zhong Jiaqi Yang Yanbo Zheng VGen DiffM 61 13 0 03 Sep 2024
Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation Qihua Chen Y. Ma H. Wang Junkun Yuan Wenzhe Zhao Q. Tian Hongmei Wang Shaobo Min Qifeng Chen W. Liu DiffM 31 16 0 02 Sep 2024
Compositional 3D-aware Video Generation with LLM Director Hanxin Zhu Tianyu He Anni Tang Junliang Guo Zhibo Chen Jiang Bian DiffM VGen 31 7 0 31 Aug 2024
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model F. Liu Wenqiang Sun Hanyang Wang Yikai Wang Haowen Sun Junliang Ye Jun Zhang Yueqi Duan VGen 41 31 0 29 Aug 2024
Latent-EnSF: A Latent Ensemble Score Filter for High-Dimensional Data Assimilation with Sparse Observation Data Phillip Si Peng Chen 21 1 0 29 Aug 2024
GenRec: Unifying Video Generation and Recognition with Diffusion Models Zejia Weng Xitong Yang Zhen Xing Zuxuan Wu Yu-Gang Jiang VGen DiffM 32 5 0 27 Aug 2024
Constrained Diffusion Models via Dual Training Shervin Khalafi Dongsheng Ding Alejandro Ribeiro 27 3 0 27 Aug 2024
Diffusion Models Are Real-Time Game Engines Dani Valevski Yaniv Leviathan Moab Arar Shlomi Fruchter DiffM VGen AI4CE 33 57 0 27 Aug 2024
Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation Xiaojuan Wang Boyang Zhou Brian L. Curless Ira Kemelmacher-Shlizerman Aleksander Holynski Steven M. Seitz DiffM 53 10 0 27 Aug 2024
SurGen: Text-Guided Diffusion Model for Surgical Video Generation Joseph Cho Samuel Schmidgall C. Zakka Mrudang Mathur Dhamanpreet Kaur R. Shad W. Hiesinger VGen MedIm 29 6 0 26 Aug 2024
Rethinking Video Deblurring with Wavelet-Aware Dynamic Transformer and Diffusion Model Chen Rao Guangyuan Li Zehua Lan Jiakai Sun Junsheng Luan Wei Xing Lei Zhao Huaizhong Lin Jianfeng Dong Dalong Zhang DiffM 21 5 0 24 Aug 2024
CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities Tao Wu Yong Zhang Xintao Wang Xianpan Zhou Guangcong Zheng Zhongang Qi Ying Shan Xi Li VGen DiffM 24 26 0 23 Aug 2024
EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation Cong Wang Jiaxi Gu Panwen Hu Haoyu Zhao Yuanfan Guo J. N. Han Hang Xu Xiaodan Liang VGen DiffM 26 3 0 23 Aug 2024
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations Can Qin Congying Xia Krithika Ramakrishnan Michael S Ryoo Lifu Tu ... Silvio Savarese Juan Carlos Niebles Zeyuan Chen Ran Xu Caiming Xiong VGen DiffM 74 2 0 22 Aug 2024
DreamFactory: Pioneering Multi-Scene Long Video Generation with a Multi-Agent Framework Zhifei Xie Daniel Tang Dingwei Tan Jacques Klein Tegawend F. Bissyand Saad Ezzini VGen 32 8 0 21 Aug 2024
Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data Tao Yang Yangming Shi Yunwen Huang Feng Chen Yin Zheng Lei Zhang DiffM VGen 62 0 0 19 Aug 2024
FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance Jiasong Feng Ao Ma Jing Wang Bo Cheng Xiaodan Liang Dawei Leng Yuhui Yin DiffM VGen 37 6 0 15 Aug 2024
CT4D: Consistent Text-to-4D Generation with Animatable Meshes Ce Chen Shaoli Huang Xuelin Chen Guangyi Chen Xiaoguang Han Kun Zhang Mingming Gong 30 4 0 15 Aug 2024
Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE Yiying Yang Fukun Yin Jiayuan Fan Xin Chen Wanzhang Li Gang Yu VGen 44 0 0 10 Aug 2024
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics Ruining Li Chuanxia Zheng Christian Rupprecht Andrea Vedaldi DiffM VGen 36 9 0 08 Aug 2024
Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention Mengkang Hu DiffM 38 7 0 01 Aug 2024
SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement Mark Boss Zixuan Huang Aaryaman Vasishta Varun Jampani 3DGS 82 31 0 01 Aug 2024
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion Monika Zimmermann Jacek Naruniec Christopher Schroers Markus Gross Romann M. Weber VGen DiffM 40 3 0 01 Aug 2024
Conditioned Prompt-Optimization for Continual Deepfake Detection Francesco Laiti Benedetta Liberatori Thomas De Min Elisa Ricci 35 3 0 31 Jul 2024
Fine-gained Zero-shot Video Sampling Dengsheng Chen Jie Hu Javier Segovia-Aguas Enhua Wu VGen DiffM 24 0 0 31 Jul 2024
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions Xiaowei Chi Yatian Wang Aosong Cheng Pengjun Fang Zeyue Tian ... Wenhan Luo Qifeng Chen Shanghang Zhang Qi-fei Liu Yi-Ting Guo 67 7 0 30 Jul 2024
Faster Image2Video Generation: A Closer Look at CLIP Image Embedding's Impact on Spatio-Temporal Cross-Attentions Ashkan Taghipour Morteza Ghahremani Bennamoun Aref Miri Rekavandi Zinuo Li Hamid Laga F. Boussaïd VGen 71 2 0 27 Jul 2024
HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation Zhenzhi Wang Yixuan Li Yanhong Zeng Youqing Fang Yuwei Guo ... Jing Tan Kai Chen Tianfan Xue Bo Dai Dahua Lin VGen 3DH 38 18 0 24 Jul 2024
SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency Yiming Xie Chun-Han Yao Vikram S. Voleti Huaizu Jiang Varun Jampani VGen 70 39 0 24 Jul 2024
Anchored Diffusion for Video Face Reenactment I. Kligvasser Regev Cohen G. Leifman Ehud Rivlin Michael Elad DiffM VGen 34 1 0 21 Jul 2024
D $^4$ M: Dataset Distillation via Disentangled Diffusion Model Duo Su Junjie Hou Weizhi Gao Yingjie Tian Bowen Tang DD 35 18 0 21 Jul 2024
DiffuX2CT: Diffusion Learning to Reconstruct CT Images from Biplanar X-Rays Xuhui Liu Zhi Qiao Runkun Liu Hong Li Juan Zhang Xiantong Zhen Zhen Qian Baochang Zhang MedIm 37 2 0 18 Jul 2024
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control Sherwin Bahmani Ivan Skorokhodov Aliaksandr Siarohin Willi Menapace Guocheng Qian ... Chaoyang Wang Jiaxu Zou Andrea Tagliasacchi David B. Lindell Sergey Tulyakov VGen DiffM 80 42 0 17 Jul 2024
Gated Temporal Diffusion for Stochastic Long-Term Dense Anticipation Olga Zatsarynna Emad Bahrami Yazan Abu Farha Gianpiero Francesca Juergen Gall 28 1 0 16 Jul 2024
Contrastive Sequential-Diffusion Learning: An approach to Multi-Scene Instructional Video Synthesis Vasco Ramos Yonatan Bitton Michal Yarom Idan Szpektor João Magalhães DiffM 33 0 0 16 Jul 2024
QVD: Post-training Quantization for Video Diffusion Models Shilong Tian Hong Chen Chengtao Lv Yu Liu Jinyang Guo Xianglong Liu Shengxi Li Hao Yang Tao Xie VGen MQ 46 2 0 16 Jul 2024
Isometric Representation Learning for Disentangled Latent Space of Diffusion Models Jaehoon Hahm Junho Lee Sunghyun Kim Joonseok Lee DiffM 26 7 0 16 Jul 2024
Animate3D: Animating Any 3D Model with Multi-view Video Diffusion Yanqin Jiang Chaohui Yu Chenjie Cao Fan Wang Weiming Hu Jin Gao VGen 46 16 0 16 Jul 2024
Kinetic Typography Diffusion Model Seonmi Park Inhwan Bae Seunghyun Shin Hae-Gon Jeon DiffM 68 2 0 15 Jul 2024
TCAN: Animating Human Images with Temporally Consistent Pose Guidance using Diffusion Models J. Kim Min-Jung Kim Junsoo Lee Jaegul Choo DiffM 37 5 0 12 Jul 2024
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models Zhening Xing Gereon Fox Yanhong Zeng Xingang Pan Mohamed A. Elgharib Christian Theobalt Kai Chen VGen 27 3 0 11 Jul 2024
Still-Moving: Customized Video Generation without Customized Video Data Hila Chefer Shiran Zada Roni Paiss Ariel Ephrat Omer Tov Michael Rubinstein Lior Wolf Tali Dekel T. Michaeli Inbar Mosseri DiffM VGen 26 20 0 11 Jul 2024
A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights Wentao Lei Jinting Wang Fengji Ma Guanjie Huang Li Liu VGen EGVM 63 8 0 11 Jul 2024
E2VIDiff: Perceptual Events-to-Video Reconstruction using Diffusion Priors Jinxiu Liang Bohan Yu Yixin Yang Yiming Han Boxin Shi VGen DiffM MDE 22 0 0 11 Jul 2024