Latte: Latent Diffusion Transformer for Video Generation

5 January 2024

Papers citing "Latte: Latent Diffusion Transformer for Video Generation"

50 / 186 papers shown

Title
SpecDM: Hyperspectral Dataset Synthesis with Pixel-level Semantic Annotations W. Liu Pei Yang Wenhui Hong Xiaoguang Mei Jiayi Ma DiffM 40 0 0 24 Feb 2025
MALT Diffusion: Memory-Augmented Latent Transformers for Any-Length Video Generation Sihyun Yu Meera Hahn Dan Kondratyuk Jinwoo Shin Agrim Gupta José Lezama Irfan Essa David A. Ross Jonathan Huang DiffM VGen 45 0 0 18 Feb 2025
SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion Junxian Ma Shiwen Wang Jian Yang Junyi Hu Jian Liang Guosheng Lin Jingbo Chen Kai Li Yu Meng DiffM VGen 37 3 0 17 Feb 2025
Learning Human Skill Generators at Key-Step Levels Yilu Wu Chenhui Zhu Shuai Wang Hanlin Wang Jing Wang Zhaoxiang Zhang Limin Wang VGen 97 0 0 12 Feb 2025
Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile Hangliang Ding Dacheng Li Runlong Su Peiyuan Zhang Zhijie Deng Ion Stoica Hao Zhang VGen 46 3 0 10 Feb 2025
History-Guided Video Diffusion Kiwhan Song Boyuan Chen Max Simchowitz Yilun Du Russ Tedrake Vincent Sitzmann VGen 79 4 0 10 Feb 2025
VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer Xinyu Liu Ailing Zeng Wei Xue Harry Yang Wenhan Luo Qifeng Liu Yike Guo VGen 78 0 0 09 Feb 2025
IPO: Iterative Preference Optimization for Text-to-Video Generation Xiaomeng Yang Zhiyu Tan Xuecheng Nie VGen 85 1 0 04 Feb 2025
Taming Teacher Forcing for Masked Autoregressive Video Generation Deyu Zhou Quan Sun Yuang Peng Kun Yan Runpei Dong ... Zheng Ge Nan Duan Xiangyu Zhang L. Ni H. Shum VGen 27 4 0 21 Jan 2025
Ditto: Accelerating Diffusion Model via Temporal Value Similarity Sungbin Kim Hyunwuk Lee Wonho Cho Mincheol Park Won Woo Ro 38 1 0 20 Jan 2025
Towards Precise Scaling Laws for Video Diffusion Transformers Yuanyang Yin Yaqi Zhao Mingwu Zheng Ke Lin Jiarong Ou ... Pengfei Wan Di Zhang Baoqun Yin Wentao Zhang Kun Gai 75 2 0 03 Jan 2025
AKiRa: Augmentation Kit on Rays for optical video generation Xi Wang Robin Courant Marc Christie Vicky Kalogeiton VGen 85 3 0 31 Dec 2024
Vinci: A Real-time Embodied Smart Assistant based on Egocentric Vision-Language Model Y. Huang Jilan Xu Baoqi Pei Yuping He Guo Chen ... Kunpeng Li C. Yuan Y. Wang Yu Qiao L. Wang 45 3 0 31 Dec 2024
Bridging Interpretability and Robustness Using LIME-Guided Model Refinement Navid Nayyem Abdullah Rakin Longwei Wang AAML FAtt 39 1 0 25 Dec 2024
AsymRnR: Video Diffusion Transformers Acceleration with Asymmetric Reduction and Restoration Wenhao Sun Rong-Cheng Tu Jingyi Liao Zhao Jin Dacheng Tao VGen 79 1 0 16 Dec 2024
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping Hao Shao Shulun Wang Yang Zhou Guanglu Song Dailan He Shuo Qin Zhuofan Zong Bingqi Ma Y. Liu Hongsheng Li VGen DiffM 86 0 0 15 Dec 2024
Video Diffusion Transformers are In-Context Learners Zhengcong Fei Di Qiu Changqian Yu Debang Li Mingyuan Fan VGen DiffM 72 2 0 14 Dec 2024
UFO: Enhancing Diffusion-Based Video Generation with a Uniform Frame Organizer Delong Liu Zhaohui Hou Mingjie Zhan Shihao Han Zhicheng Zhao Fei Su VGen 76 0 0 12 Dec 2024
T-SVG: Text-Driven Stereoscopic Video Generation Qiao Jin Xiaodong Chen Wu Liu Tao Mei Yongdong Zhang DiffM VGen 73 1 0 12 Dec 2024
StyleMaster: Stylize Your Video with Artistic Generation and Translation Zixuan Ye Huijuan Huang Xintao Wang Pengfei Wan Di Zhang Wenhan Luo DiffM VGen 79 4 0 10 Dec 2024
[MASK] is All You Need Vincent Tao Hu Bjorn Ommer DiffM 103 2 0 09 Dec 2024
Remix-DiT: Mixing Diffusion Transformers for Multi-Expert Denoising Gongfan Fang Xinyin Ma Xinchao Wang DiffM MoE 86 0 0 07 Dec 2024
DiCoDe: Diffusion-Compressed Deep Tokens for Autoregressive Video Generation with Language Models Yizhuo Li Yuying Ge Yixiao Ge Ping Luo Ying Shan DiffM VGen 77 0 0 05 Dec 2024
CPA: Camera-pose-awareness Diffusion Transformer for Video Generation Yuelei Wang Jian Zhang Pengtao Jiang H. Zhang Jinwei Chen Bo Li VGen DiffM 80 2 0 02 Dec 2024
ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration Chaojun Ni Guosheng Zhao Xiaofeng Wang Zheng Hua Zhu Wenkang Qin ... Kun Zhan Peng Jia Xianpeng Lang Xingang Wang Wenjun Mei VGen 68 5 0 29 Nov 2024
Deepfake Media Generation and Detection in the Generative AI Era: A Survey and Outlook Florinel-Alin Croitoru Andrei Iulian Hiji Vlad Hondru Nicolae-Cătălin Ristea Paul Irofti Marius Popescu Cristian Rusu Radu Tudor Ionescu F. Khan Mubarak Shah 59 2 0 29 Nov 2024
SPAgent: Adaptive Task Decomposition and Model Selection for General Video Generation and Editing Rong-Cheng Tu Wenhao Sun Zhao Jin Jingyi Liao Jiaxing Huang Dacheng Tao VGen DiffM 68 2 0 28 Nov 2024
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model Feng Liu Shiwei Zhang Xiaofeng Wang Yujie Wei Haonan Qiu Yuzhong Zhao Yingya Zhang Qixiang Ye Fang Wan VGen AI4TS 72 10 0 28 Nov 2024
StableAnimator: High-Quality Identity-Preserving Human Image Animation Shuyuan Tu Zhen Xing Xintong Han Zhi-Qi Cheng Qi Dai Chong Luo Zuxuan Wu VGen 75 10 0 26 Nov 2024
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis Xinyu Hou Zongsheng Yue Xiaoming Li Chen Change Loy VGen DiffM 77 0 0 26 Nov 2024
VideoDirector: Precise Video Editing via Text-to-Video Models Yukun Wang Longguang Wang Zhiyuan Ma Qibin Hu Kai Xu Yulan Guo VGen DiffM 69 0 0 26 Nov 2024
WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model Zongjian Li Bin Lin Yang Ye Liuhan Chen Xinhua Cheng Shenghai Yuan Li-xin Yuan VGen DiffM 78 15 0 26 Nov 2024
Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing Kaifeng Gao Jiaxin Shi Hanwang Zhang Chunping Wang Jun Xiao Long Chen DiffM VGen 75 0 0 25 Nov 2024
Human-Activity AGV Quality Assessment: A Benchmark Dataset and an Objective Evaluation Metric Zhichao Zhang Wei Sun Xinyue Li Yunhao Li Qihang Ge ... Zhongpeng Ji Fengyu Sun Shangling Jui Xiongkuo Min Guangtao Zhai EGVM 76 0 0 25 Nov 2024
LaVin-DiT: Large Vision Diffusion Transformer Zhaoqing Wang Xiaobo Xia Runnan Chen Dongdong Yu Changhu Wang M. Gong Tongliang Liu 71 5 0 18 Nov 2024
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing Chang-Shu Liu Rui Li Kaidong Zhang Yunwei Lan Dong Liu DiffM VGen 32 2 0 17 Nov 2024
SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers Joseph Liu Joshua Geddes Ziyu Guo Haomiao Jiang Mahesh Kumar Nandwana 32 0 0 15 Nov 2024
EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation Xiaofeng Wang Kang Zhao F. Liu Jiayu Wang Guosheng Zhao Xiaoyi Bao Zheng Hua Zhu Yingya Zhang Xingang Wang VGen 27 5 0 13 Nov 2024
Latent Space Disentanglement in Diffusion Transformers Enables Precise Zero-shot Semantic Editing Zitao Shuai Chenwei Wu Zhengxu Tang Bowen Song Liyue Shen DiffM 32 0 0 12 Nov 2024
Artificial Intelligence for Biomedical Video Generation Linyuan Li Jianing Qiu Anujit Saha Lin Li Poyuan Li Mengxian He Ziyu Guo Wu Yuan VGen 35 1 0 12 Nov 2024
Improved Video VAE for Latent Video Diffusion Model Pingyu Wu Kai Zhu Yu Liu Liming Zhao Wei-dong Zhai Yang Cao Zheng-jun Zha VGen DiffM 32 4 0 10 Nov 2024
I2VControl-Camera: Precise Video Camera Control with Adjustable Motion Strength Wanquan Feng Jiawei Liu Pengqi Tu Tianhao Qi Mingzhen Sun Tianxiang Ma Songtao Zhao Siyu Zhou Qian He VGen 27 5 0 10 Nov 2024
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning David Junhao Zhang Roni Paiss Shiran Zada Nikhil Karnad David E. Jacobs Yael Pritch Inbar Mosseri Mike Zheng Shou Neal Wadhwa Nataniel Ruiz DiffM VGen 34 14 0 07 Nov 2024
xDiT: an Inference Engine for Diffusion Transformers (DiTs) with Massive Parallelism Jiarui Fang Jinzhe Pan Xibo Sun Aoyu Li Jiannan Wang 31 4 0 04 Nov 2024
Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation Zhenbin Wang Lei Zhang Lituan Wang Minjuan Zhu Zhenwei Zhang VGen MedIm 36 1 0 03 Nov 2024
GameGen-X: Interactive Open-world Game Video Generation Haoxuan Che Xuanhua He Quande Liu C. Jin Hao Chen VGen 32 13 0 01 Nov 2024
ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation Zongyi Li Shujie Hu Shujie Liu Long Zhou Jeongsoo Choi Lingwei Meng Xun Guo J. Li H. Ling Furu Wei VGen DiffM 43 1 0 27 Oct 2024
Are Visual-Language Models Effective in Action Recognition? A Comparative Study Mahmoud Ali Di Yang François Brémond VLM 28 0 0 22 Oct 2024
Allegro: Open the Black Box of Commercial-Level Video Generation Model Yuan Zhou Qiuyue Wang Yuxuan Cai Huan Yang VGen VLM 45 23 0 20 Oct 2024
FrameBridge: Improving Image-to-Video Generation with Bridge Models Yuji Wang Zehua Chen Xiaoyu Chen Jun-Jie Zhu Jianfei Chen DiffM VGen 49 1 0 20 Oct 2024