Photorealistic Video Generation with Diffusion Models

11 December 2023

Papers citing "Photorealistic Video Generation with Diffusion Models"

50 / 142 papers shown

Title
Consistency Diffusion Bridge Models Guande He Kaiwen Zheng Jianfei Chen Fan Bao Jun-Jie Zhu DiffM 54 3 0 30 Oct 2024
Kandinsky 3: Text-to-Image Synthesis for Multifunctional Generative Framework V. Arkhipkin Viacheslav Vasilev Andrei Filatov Igor Pavlov Julia Agafonova ... Evelina Mironova Anton Bukashkin Konstantin Kulikov Andrey Kuznetsov Denis Dimitrov DiffM 28 3 0 28 Oct 2024
Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion Emiel Hoogeboom Thomas Mensink Jonathan Heek Kay Lamerigts Ruiqi Gao Tim Salimans 52 6 0 25 Oct 2024
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control Yujie Wei Shiwei Zhang Hangjie Yuan Xiang Wang Haonan Qiu ... F. Liu Zhizhong Huang Jiaxin Ye Yingya Zhang Hongming Shan DiffM VGen 69 14 0 17 Oct 2024
FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model ZiDong Wang Zeyu Lu Di Huang Cai Zhou Wanli Ouyang and Lei Bai 69 3 0 17 Oct 2024
DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation Guosheng Zhao Chaojun Ni Xiaofeng Wang Zheng Zhu X. Zhang ... Xinze Chen Boyuan Wang Youyi Zhang Wenjun Mei Xingang Wang VGen 80 24 0 17 Oct 2024
FlashAudio: Rectified Flows for Fast and High-Fidelity Text-to-Audio Generation Huadai Liu Jialei Wang Rongjie Huang Yang Liu H. Lu Wei Xue Zhou Zhao 11 3 0 16 Oct 2024
MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion Onkar Susladkar Jishu Sen Gupta Chirag Sehgal Sparsh Mittal Rekha Singhal DiffM VGen 33 0 0 10 Oct 2024
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think Sihyun Yu Sangkyung Kwak Huiwon Jang Jongheon Jeong Jonathan Huang Jinwoo Shin Saining Xie OCL 68 62 0 09 Oct 2024
Elucidating the Design Choice of Probability Paths in Flow Matching for Forecasting S. H. Lim Yijin Wang Annan Yu Emma Hart Michael W. Mahoney Xiaoye S. Li N. Benjamin Erichson AI4TS 42 1 0 04 Oct 2024
Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models Seyedmorteza Sadat Otmar Hilliges Romann M. Weber DiffM 18 8 0 03 Oct 2024
Learning Multimodal Latent Generative Models with Energy-Based Prior Shiyu Yuan Jiali Cui Hanao Li Tian Han 19 0 0 30 Sep 2024
PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation Shaowei Liu Zhongzheng Ren Saurabh Gupta Shenlong Wang VGen DiffM PINN 39 33 0 27 Sep 2024
MaskBit: Embedding-free Image Generation via Bit Tokens Mark Weber Lijun Yu Qihang Yu XueQing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen DiffM 49 27 0 24 Sep 2024
One missing piece in Vision and Language: A Survey on Comics Understanding Emanuele Vivoli Andrey Barsky Mohamed Ali Souibgui Artemis LLabres Marco Bertini Dimosthenis Karatzas 34 3 0 14 Sep 2024
SVS-GAN: Leveraging GANs for Semantic Video Synthesis Khaled M. Seyam Julian Wiederer Markus Braun Bin Yang 22 0 0 09 Sep 2024
AMG: Avatar Motion Guided Video Generation Zhangsihao Yang Mengyi Shan Mohammad Farazi Wenhui Zhu Yanxi Chen Xuanzhao Dong Yalin Wang VGen DiffM 64 0 0 02 Sep 2024
Compositional 3D-aware Video Generation with LLM Director Hanxin Zhu Tianyu He Anni Tang Junliang Guo Zhibo Chen Jiang Bian DiffM VGen 31 7 0 31 Aug 2024
Diffusion Models Are Real-Time Game Engines Dani Valevski Yaniv Leviathan Moab Arar Shlomi Fruchter DiffM VGen AI4CE 33 57 0 27 Aug 2024
VidGen-1M: A Large-Scale Dataset for Text-to-video Generation Zhiyu Tan Xiaomeng Yang Luozheng Qin Hao Li VGen 53 16 0 05 Aug 2024
EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos Aashish Rai Srinath Sridhar DiffM 36 4 0 30 Jul 2024
Anchored Diffusion for Video Face Reenactment I. Kligvasser Regev Cohen G. Leifman Ehud Rivlin Michael Elad DiffM VGen 34 1 0 21 Jul 2024
Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion Boyang Deng Richard Tucker Zhengqi Li Leonidas J. Guibas Noah Snavely Gordon Wetzstein VGen 3DGS DiffM 32 11 0 18 Jul 2024
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models Zhening Xing Gereon Fox Yanhong Zeng Xingang Pan Mohamed A. Elgharib Christian Theobalt Kai Chen VGen 25 3 0 11 Jul 2024
Generative Image as Action Models Mohit Shridhar Yat Long Lo Stephen James 38 6 0 10 Jul 2024
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions Xuan Ju Yiming Gao Zhaoyang Zhang Ziyang Yuan Xintao Wang Ailing Zeng Yu Xiong Qiang Xu Ying Shan VGen 61 36 0 08 Jul 2024
VIMI: Grounding Video Generation through Multi-modal Instruction Yuwei Fang Willi Menapace Aliaksandr Siarohin Tsai-Shien Chen Kuan-Chien Wang Ivan Skorokhodov Graham Neubig Sergey Tulyakov VGen 55 2 0 08 Jul 2024
No Training, No Problem: Rethinking Classifier-Free Guidance for Diffusion Models Seyedmorteza Sadat Manuel Kansy Otmar Hilliges Romann M. Weber 29 10 0 02 Jul 2024
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix Peng Dai Feitong Tan Qiangeng Xu David Futschik Ruofei Du S. Fanello Xiaojuan Qi Yinda Zhang VGen 21 4 0 29 Jun 2024
OccFusion: Rendering Occluded Humans with Generative Diffusion Priors Adam Sun Tiange Xiang Scott Delp Li Fei-Fei Ehsan Adeli 29 2 0 29 Jun 2024
MotionBooth: Motion-Aware Customized Text-to-Video Generation Jianzong Wu Xiangtai Li Yanhong Zeng J. J. Zhang Qianyu Zhou Yining Li Yunhai Tong Kai Chen DiffM VGen 70 40 0 25 Jun 2024
LIPE: Learning Personalized Identity Prior for Non-rigid Image Editing Aoyang Liu Qingnan Fan Shuai Qin Hong Gu Yansong Tang DiffM 53 1 0 25 Jun 2024
Towards a Science Exocortex Kevin G. Yager 74 0 0 24 Jun 2024
Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model Min Zhao Hongzhou Zhu Chendong Xiang Kaiwen Zheng Chongxuan Li Jun Zhu 61 8 0 22 Jun 2024
VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation Xuan He Dongfu Jiang Ge Zhang Max W.F. Ku Achint Soni ... Yaswanth Narsupalli Rongqi Fan Zhiheng Lyu Yuchen Lin Wenhu Chen EGVM VGen ALM 43 41 0 21 Jun 2024
Consistency Models Made Easy Zhengyang Geng Ashwini Pokle William Luo Justin Lin J. Zico Kolter 30 24 0 20 Jun 2024
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images Rushikesh Zawar Shaurya Dewan Andrew F. Luo Margaret M. Henderson Michael J. Tarr Leila Wehbe VGen CoGe 31 1 0 19 Jun 2024
Compositional Video Generation as Flow Equalization Xingyi Yang Xinchao Wang DiffM VGen 58 7 0 10 Jun 2024
BitsFusion: 1.99 bits Weight Quantization of Diffusion Model Yang Sui Yanyu Li Anil Kag Yerlan Idelbayev Junli Cao Ju Hu Dhritiman Sagar Bo Yuan Sergey Tulyakov Jian Ren MQ 36 17 0 06 Jun 2024
SF-V: Single Forward Video Generation Model Zhixing Zhang Yanyu Li Yushu Wu Yanwu Xu Anil Kag ... Aliaksandr Siarohin Junli Cao Dimitris N. Metaxas Sergey Tulyakov Jian Ren DiffM VGen 31 9 0 06 Jun 2024
VideoTetris: Towards Compositional Text-to-Video Generation Ye Tian Ling Yang Haotian Yang Yuan Gao Yufan Deng ... Zhaochen Yu Xin Tao Pengfei Wan Di Zhang Bin Cui DiffM VGen 76 15 0 06 Jun 2024
DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark Haoxing Chen Yan Hong Zizheng Huang Zhuoer Xu Zhangxuan Gu ... Jun Lan Huijia Zhu Jianfu Zhang Weiqiang Wang Huaxiong Li Mamba 80 13 0 30 May 2024
Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models Hanwen Liang Yuyang Yin Dejia Xu Hanxue Liang Zhangyang Wang Konstantinos N. Plataniotis Yao Zhao Yunchao Wei VGen 53 38 0 26 May 2024
Generating Code World Models with Large Language Models Guided by Monte Carlo Tree Search Nicola Dainese Matteo Merler Minttu Alakuijala Pekka Marttinen LLMAG 31 7 0 24 May 2024
Diffusion Bridge Implicit Models Kaiwen Zheng Guande He Jianfei Chen Fan Bao Jun Zhu DiffM 73 13 0 24 May 2024
LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models Seyedmorteza Sadat Jakob Buhmann Derek Bradley Otmar Hilliges Romann M. Weber 37 9 0 23 May 2024
From Sora What We Can See: A Survey of Text-to-Video Generation Rui Sun Yumin Zhang Tejal Shah Jiahao Sun Shuoying Zhang Wenqi Li Haoran Duan Bo Wei R. Ranjan EGVM 79 17 0 17 May 2024
Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers Peng Gao Le Zhuo Ziyi Lin Ruoyi Du Xu Luo ... Weicai Ye He Tong Jingwen He Yu Qiao Hongsheng Li VGen 30 81 0 09 May 2024
Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond Zheng Zhu Xiaofeng Wang Wangbo Zhao Chen Min Nianchen Deng ... Dawei Zhao Liang Xiao Jian-jun Zhao Jiwen Lu Guan Huang VGen LM&Ro 79 35 0 06 May 2024
Video Diffusion Models: A Survey Andrew Melnik Michal Ljubljanac Cong Lu Qi Yan Weiming Ren Helge J. Ritter VGen 63 12 0 06 May 2024