Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

18 April 2023

Sanja Fidler

Papers citing "Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models"

50 / 827 papers shown

Title
TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models Zhongwei Zhang Fuchen Long Yingwei Pan Zhaofan Qiu Ting Yao Yang Cao Tao Mei VGen 41 22 0 25 Mar 2024
A Survey on Long Video Generation: Challenges, Methods, and Prospects Chengxuan Li Di Huang Zeyu Lu Yang Xiao Qingqi Pei Lei Bai EGVM 34 19 0 25 Mar 2024
Opportunities and challenges in the application of large artificial intelligence models in radiology Liangrui Pan Zhenyu Zhao Ying Lu Kewei Tang Liyong Fu Qingchun Liang Shaoliang Peng LM&MA MedIm AI4CE 37 5 0 24 Mar 2024
EVA: Zero-shot Accurate Attributes and Multi-Object Video Editing Xiangpeng Yang Linchao Zhu Hehe Fan Yi Yang DiffM VGen 14 9 0 24 Mar 2024
Spectral Motion Alignment for Video Motion Transfer using Diffusion Models Geon Yeong Park Hyeonho Jeong Sang Wan Lee Jong Chul Ye VGen DiffM 32 10 0 22 Mar 2024
Explorative Inbetweening of Time and Space Haiwen Feng Zheng Ding Zhihao Xia Simon Niklaus Victoria Fernandez-Abrevaya Michael J. Black Xuaner Zhang DiffM VGen 34 5 0 21 Mar 2024
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition Sihyun Yu Weili Nie De-An Huang Boyi Li Jinwoo Shin A. Anandkumar VGen DiffM 29 15 0 21 Mar 2024
A Roadmap Towards Automated and Regulated Robotic Systems Yihao Liu Mehran Armand 36 2 0 21 Mar 2024
StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text Roberto Henschel Levon Khachatryan Daniil Hayrapetyan Hayk Poghosyan Vahram Tadevosyan Zhangyang Wang Shant Navasardyan Humphrey Shi DiffM VGen 93 77 0 21 Mar 2024
TimeRewind: Rewinding Time with Image-and-Events Video Diffusion Jingxi Chen Brandon Yushan Feng Haoming Cai Mingyang Xie Christopher A. Metzler Cornelia Fermuller Yiannis Aloimonos 32 4 0 20 Mar 2024
Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation Fu-Yun Wang Xiaoshi Wu Zhaoyang Huang Xiaoyu Shi Dazhong Shen Guanglu Song Yu Liu Hongsheng Li DiffM 30 12 0 20 Mar 2024
S2DM: Sector-Shaped Diffusion Models for Video Generation Haoran Lang Yuxuan Ge Zheng Tian DiffM VGen 29 0 0 20 Mar 2024
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis Yumeng Li William H. Beluch M. Keuper Dan Zhang Anna Khoreva DiffM VGen 76 5 0 20 Mar 2024
FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis Linjiang Huang Rongyao Fang Aiping Zhang Guanglu Song Si Liu Yu Liu Hongsheng Li DiffM 25 22 0 19 Mar 2024
FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation Shuai Yang Yifan Zhou Ziwei Liu Chen Change Loy VGen DiffM 52 26 0 19 Mar 2024
Generative Enhancement for 3D Medical Images Lingting Zhu Noel Codella Dongdong Chen Zhenchao Jin Lu Yuan Lequan Yu DiffM MedIm 34 10 0 19 Mar 2024
AnimateDiff-Lightning: Cross-Model Diffusion Distillation Shanchuan Lin Xiao Yang DiffM VGen 30 18 0 19 Mar 2024
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation Zixin Zhu Xuelu Feng Dongdong Chen Junsong Yuan Chunming Qiao Gang Hua DiffM 37 7 0 18 Mar 2024
CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility Bojia Zi Shihao Zhao Xianbiao Qi Jianan Wang Yukai Shi Qianyu Chen Bin Liang Kam-Fai Wong Lei Zhang DiffM VGen 24 15 0 18 Mar 2024
Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation Axel Sauer Frederic Boesel Tim Dockhorn A. Blattmann Patrick Esser Robin Rombach DiffM 29 106 0 18 Mar 2024
SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion Vikram S. Voleti Chun-Han Yao Mark Boss Adam Letts David Pankratz Dmitry Tochilkin Christian Laforte Robin Rombach Varun Jampani DiffM VGen 30 170 0 18 Mar 2024
DreamMotion: Space-Time Self-Similar Score Distillation for Zero-Shot Video Editing Hyeonho Jeong Jinho Chang Geon Yeong Park Jong Chul Ye DiffM VGen 27 13 0 18 Mar 2024
CasSR: Activating Image Power for Real-World Image Super-Resolution Haolan Chen Jinhua Hao Kai Zhao Kun Yuan Ming-hui Sun Chao Zhou Wei Hu 24 4 0 18 Mar 2024
Recent Advances in 3D Gaussian Splatting Tong Wu Yu-Jie Yuan Ling-Xiao Zhang Jie Yang Yan-Pei Cao Ling-Qi Yan Lin Gao 3DGS 71 84 0 17 Mar 2024
Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models Rui Li Ruihuang Li Song Guo Lei Zhang DiffM 29 7 0 17 Mar 2024
Generalized Predictive Model for Autonomous Driving Jiazhi Yang Shenyuan Gao Yihang Qiu Li Chen Tianyu Li ... Ping Luo Jun Zhang Andreas Geiger Yu Qiao Hongyang Li VGen 69 57 0 14 Mar 2024
3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation Frank Zhang Yibo Zhang Quan Zheng R. Ma W. Hua Hujun Bao Weiwei Xu Changqing Zou 49 9 0 14 Mar 2024
Towards Faster Training of Diffusion Models: An Inspiration of A Consistency Phenomenon Tianshuo Xu Peng Mi Ruilin Wang Yingcong Chen DiffM 25 6 0 14 Mar 2024
Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts Yue Ma Yin-Yin He Hongfa Wang Andong Wang Chenyang Qi ... Xiu Li Zhifeng Li H. Shum Wei Liu Qifeng Chen VGen DiffM 104 39 0 13 Mar 2024
SSM Meets Video Diffusion Models: Efficient Video Generation with Structured State Spaces Yuta Oshima Shohei Taniguchi Masahiro Suzuki Yutaka Matsuo 37 7 0 12 Mar 2024
DragAnything: Motion Control for Anything using Entity Representation Wejia Wu Zhuang Li Yuchao Gu Rui Zhao Yefei He David Junhao Zhang Mike Zheng Shou Yan Li Tingting Gao Di Zhang VGen 71 51 0 12 Mar 2024
V3D: Video Diffusion Models are Effective 3D Generators Zilong Chen Yikai Wang Feng Wang Zhengyi Wang Huaping Liu VGen 38 61 0 11 Mar 2024
FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing Youyuan Zhang Xuan Ju James J. Clark VGen DiffM 32 6 0 10 Mar 2024
Audio-Synchronized Visual Animation Lin Zhang Shentong Mo Yijing Zhang Pedro Morgado DiffM 43 18 0 08 Mar 2024
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models Yabo Zhang Yuxiang Wei Xianhui Lin Zheng Hui Peiran Ren Xuansong Xie Xiangyang Ji Wangmeng Zuo VGen 38 6 0 08 Mar 2024
Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation Joseph Cho Fachrina Dewi Puspitasari Sheng Zheng Jingyao Zheng Lik-Hang Lee Tae-Ho Kim Choong Seon Hong Chaoning Zhang EGVM VGen 36 40 0 08 Mar 2024
StereoDiffusion: Training-Free Stereo Image Generation Using Latent Diffusion Models Lezhong Wang J. Frisvad Mark Bo Jensen Siavash Bigdeli DiffM 32 10 0 08 Mar 2024
Pix2Gif: Motion-Guided Diffusion for GIF Generation Hitesh Kandala Jianfeng Gao Jianwei Yang VGen DiffM 33 3 0 07 Mar 2024
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis Patrick Esser Sumith Kulal A. Blattmann Rahim Entezari Jonas Muller ... Zion English Kyle Lacey Alex Goodwin Yannik Marek Robin Rombach DiffM 86 1,058 0 05 Mar 2024
Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation Weijie Li Litong Gong Yiran Zhu Fanda Fan Biao Wang Tiezheng Ge Bo Zheng VGen DiffM 33 2 0 05 Mar 2024
UniCtrl: Improving the Spatiotemporal Consistency of Text-to-Video Diffusion Models via Training-Free Unified Attention Control Xuweiyi Chen Tian Xia Sihan Xu VGen DiffM 32 7 0 04 Mar 2024
AtomoVideo: High Fidelity Image-to-Video Generation Litong Gong Yiran Zhu Weijie Li Xiaoyang Kang Biao Wang Tiezheng Ge Bo Zheng DiffM VGen 124 12 0 04 Mar 2024
Neural Graph Generator: Feature-Conditioned Graph Generation using Latent Diffusion Models Iakovos Evdaimon Giannis Nikolentzos Michail Chatzianastasis Hadi Abdine Michalis Vazirgiannis DiffM 27 4 0 03 Mar 2024
SCott: Accelerating Diffusion Models with Stochastic Consistency Distillation Hongjian Liu Qingsong Xie Zhijie Deng Chen Chen Shixiang Tang Fueyang Fu Zheng-Jun Zha H. Lu Zheng-jun Zha 41 6 0 03 Mar 2024
Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers Tsai-Shien Chen Aliaksandr Siarohin Willi Menapace Ekaterina Deyneka Hsiang-wei Chao ... Yuwei Fang Hsin-Ying Lee Jian Ren Ming-Hsuan Yang Sergey Tulyakov VGen 70 177 0 29 Feb 2024
PolyOculus: Simultaneous Multi-view Image-based Novel View Synthesis Jason J. Yu Tristan Aumentado-Armstrong Fereshteh Forghani Konstantinos G. Derpanis Marcus A. Brubaker 33 5 0 28 Feb 2024
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners Yazhou Xing Yin-Yin He Zeyue Tian Xintao Wang Qifeng Chen 27 50 0 27 Feb 2024
Sora Generates Videos with Stunning Geometrical Consistency Xuanyi Li Daquan Zhou Chenxu Zhang Shaodong Wei Qibin Hou Ming-Ming Cheng EGVM 33 16 0 27 Feb 2024
Accelerating Diffusion Sampling with Optimized Time Steps Shuchen Xue Zhaoqiang Liu Fei Chen Shifeng Zhang Tianyang Hu Enze Xie Zhenguo Li DiffM 33 21 0 27 Feb 2024
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models Yixin Liu Kai Zhang Yuan Li Zhiling Yan Chujie Gao ... Yue Huang Hanchi Sun Jianfeng Gao Lifang He Lichao Sun VLM VGen EGVM 68 257 0 27 Feb 2024