Title
Compute Only 16 Tokens in One Timestep: Accelerating Diffusion Transformers with Cluster-Driven Feature Caching Zhixin Zheng Xinyu Wang Chang Zou Shaobo Wang Linfeng Zhang 124 2 0 12 Sep 2025
SpatialVID: A Large-Scale Video Dataset with Spatial Annotations Jiahao Wang Yufeng Yuan Rujie Zheng Youtian Lin Jian Gao ... Xiaoxiao Long Hao Zhu Z. Zhang X. Cao Yao Yao VGen 234 9 0 11 Sep 2025
Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis Yikang Ding Jiwen Liu Wenyuan Zhang Z. Wang Wentao Hu ... Xiaohan Li Ming Chen Xiaoqiang Liu Yu-Shen Liu Pengfei Wan VGen 162 7 0 11 Sep 2025
RewardDance: Reward Scaling in Visual Generation Jie Wu Yu Gao Zilyu Ye Ming Li Liang Li ... Zeyue Xue Xiaoxia Hou Wei Liu Yan Zeng Weilin Huang EGVM 209 15 0 10 Sep 2025
Diffusion-Based Action Recognition Generalizes to Untrained Domains Rogério Guimarães Frank Xiao Pietro Perona Markus Marks 241 0 0 10 Sep 2025
World Modeling with Probabilistic Structure Integration Klemen Kotar Wanhee Lee Rahul Venkatesh Honglin Chen Daniel M. Bear ... Imran Thobani Alex Durango Khaled Jedoui Atlas Kazemian Dan Yamins 96 2 0 10 Sep 2025
LINR Bridge: Vector Graphic Animation via Neural Implicits and Video Diffusion Priors Wenshuo Gao Xicheng Lan Luyao Zhang Shuai Yang DiffM VGen 53 0 0 09 Sep 2025
ANYPORTAL: Zero-Shot Consistent Video Background Replacement Wenshuo Gao Xicheng Lan Shuai Yang DiffM VGen 112 1 0 09 Sep 2025
Zo3T: Zero-Shot 3D-Aware Trajectory-Guided Image-to-Video Generation via Test-Time Training Ruicheng Zhang Jun Zhou Zunnan Xu Zihao Liu Jiehui Huang M. Zhang Yu Sun Xiu Li VGen 261 3 0 08 Sep 2025
From Rigging to Waving: 3D-Guided Diffusion for Natural Animation of Hand-Drawn Characters Jie Zhou Linzi Qu Miu-Ling Lam Hongbo Fu DiffM 87 0 0 08 Sep 2025
UniVerse-1: Unified Audio-Video Generation via Stitching of Experts Duomin Wang W. Zuo Aojie Li L. Chen Xinyao Liao Deyu Zhou Zixin Yin Xili Dai Daxin Jiang Gang Yu DiffM VGen 128 10 0 07 Sep 2025
STADI: Fine-Grained Step-Patch Diffusion Parallelism for Heterogeneous GPUs Han Liang Jiahui Zhou Zicheng Zhou Xiaoxi Zhang Xu Chen DiffM 155 1 0 05 Sep 2025
Human Motion Video Generation: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025 Haiwei Xue Xiangyang Luo Zhanghao Hu Shu Zhang Xunzhi Xiang ... Fei Ma Zhiyong Wu Changpeng Yang Zonghong Dai Fei Richard Yu EGVM VGen 225 23 0 04 Sep 2025
TeRA: Rethinking Text-driven Realistic 3D Avatar Generation Yanwen Wang Yiyu Zhuang Jiawei Zhang Li Wang Yifei Zeng X. Cao Xinxin Zuo Hao Zhu 136 1 0 02 Sep 2025
ManipDreamer3D : Synthesizing Plausible Robotic Manipulation Video with Occupancy-aware 3D Trajectory Ying Li Xiaobao Wei Yatian Wang Yuming Li Zhongyu Zhao Hao Wang Ningning MA Ming Lu Shanghang Zhang Shanghang Zhang VGen 319 7 0 29 Aug 2025
Dress&Dance: Dress up and Dance as You Like It - Technical Preview Jun-Kun Chen Aayush Bansal Minh Vo Yu-Xiong Wang DiffM VGen 89 1 0 28 Aug 2025
Learning Primitive Embodied World Models: Towards Scalable Robotic Learning Qiao Sun Liujia Yang Wei Tang Wei Huang Kaixin Xu ... Tong He Yilun Chen Xili Dai Nanyang Ye Qinying Gu VGen LM&Ro 365 1 0 28 Aug 2025
Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation Xiaochuan Li Guoguang Du Runze Zhang Liang Jin Qi Jia ... Tianqi Wang Changsheng Li Xiaoli Gong Rengang Li Baoyu Fan VGen 89 0 0 28 Aug 2025
FakeParts: a New Family of AI-Generated DeepFakes Gaetan Brison Soobash Daiboo Samy Aimeur Awais Hussain Sani Xi Wang Gianni Franchi Vicky Kalogeiton Vicky Kalogeiton 92 1 0 28 Aug 2025
Phased One-Step Adversarial Equilibrium for Video Diffusion Models Jiaxiang Cheng Bing Ma Xuhua Ren Hongyi Jin Kai Yu Peng Zhang Wenyue Li Yuan Zhou Tianxiang Zheng Qinglin Lu DiffM VGen 153 3 0 28 Aug 2025
Ego-centric Predictive Model Conditioned on Hand Trajectories Binjie Zhang Mike Zheng Shou EgoV 262 0 0 27 Aug 2025
LSD-3D: Large-Scale 3D Driving Scene Generation with Geometry Grounding Julian Ost Andrea Ramazzina Amogh Joshi Maximilian Bömer Mario Bijelic Felix Heide 3DV 124 2 0 26 Aug 2025
SuperGen: An Efficient Ultra-high-resolution Video Generation System with Sketching and Tiling Fanjiang Ye Zepeng Zhao Yi Mu Jucheng Shen Renjie Li ... Triston Cao Aditya Akella Arvind Krishnamurthy T.S. Eugene Ng Zhengzhong Tu DiffM VGen 104 0 0 25 Aug 2025
ControlEchoSynth: Boosting Ejection Fraction Estimation Models via Controlled Video Diffusion Nima Kondori Hanwen Liang H. Vaseli Bingyu Xie C. Luong Purang Abolmaesumi T. Tsang Renjie Liao MedIm 77 0 0 25 Aug 2025
Incorporating Pre-trained Diffusion Models in Solving the Schrödinger Bridge Problem Zhicong Tang Tiankai Hang Shuyang Gu Dong Chen Baining Guo DiffM OT 212 0 0 25 Aug 2025
DiCache: Let Diffusion Model Determine Its Own Cache Jiazi Bu Pengyang Ling Yujie Zhou Yibin Wang Yuhang Zang Tong Wu Dahua Lin DiffM 249 1 0 24 Aug 2025
Seeing Clearly, Forgetting Deeply: Revisiting Fine-Tuned Video Generators for Driving Simulation Chun-Peng Chang Chen-Yu Wang Julian Schmidt Holger Caesar A. Pagani VGen 211 1 0 22 Aug 2025
Collaborative Multi-Modal Coding for High-Quality 3D Generation Z. Cao Zhaoxi Chen Liang Pan Ziwei Liu 84 2 0 21 Aug 2025
Scaling Group Inference for Diverse and High-Quality Generation Gaurav Parmar Or Patashnik Daniil Ostashev Kuan-Chieh Wang Kfir Aberman Srinivasa Narasimhan Jun-Yan Zhu 140 1 0 21 Aug 2025
CineScale: Free Lunch in High-Resolution Cinematic Visual Generation Haonan Qiu Ning Yu Ziqi Huang P. Debevec Ziwei Liu VGen 127 2 0 21 Aug 2025
MeSS: City Mesh-Guided Outdoor Scene Generation with Cross-View Consistent Diffusion Xuyang Chen Zhijun Zhai Kaixuan Zhou Zengmao Wang Jianan He ... Yanfeng Zhang Mingwei Sun Rüdiger Westermann Konrad Schindler Liqiu Meng DiffM 3DGS 139 2 0 21 Aug 2025
AnchorSync: Global Consistency Optimization for Long Video Editing Zichi Liu Yinggui Wang Tao Wei Chao Ma DiffM VGen 120 0 0 20 Aug 2025
Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization Canyu Zhao Xiaoman Li Tianjian Feng Zhiyue Zhao Hao Chen Chunhua Shen DiffM VGen 158 2 0 20 Aug 2025
MoVieDrive: Multi-Modal Multi-View Urban Scene Video Generation Guile Wu David Huang Dongfeng Bai Bingbing Liu VGen 84 0 0 20 Aug 2025
Vivid-VR: Distilling Concepts from Text-to-Video Diffusion Transformer for Photorealistic Video Restoration Haoran Bai Xiaoxu Chen Canqian Yang Zongyao He Sibin Deng Ying-Cong Chen VGen 224 1 0 20 Aug 2025
Ouroboros: Single-step Diffusion Models for Cycle-consistent Forward and Inverse Rendering Shanlin Sun Yifan Wang Hanwen Zhang Yifeng Xiong Qin Ren Ruogu Fang Xiaohui Xie Chenyu You 154 3 0 20 Aug 2025
InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing Shaoshu Yang Zhe Kong Feng Gao Meng Cheng Xiangyu Liu ... Zhuoliang Kang Tong Lu Xunliang Cai Ran He Xiaoming Wei VGen 99 7 0 19 Aug 2025
EgoTwin: Dreaming Body and View in First Person Jingqiao Xiu Fangzhou Hong Yicong Li Mengze Li Wentao Wang Sirui Han Liang Pan Ziwei Liu DiffM VGen 126 4 0 18 Aug 2025
Matrix-game 2.0: An open-source real-time and streaming interactive world model Xianglong He Chunli Peng Zexiang Liu Boyang Wang Yifan Zhang ... Wei Li Xuchen Song Wenshu Fan Eric Li Yahui Zhou VGen 218 23 0 18 Aug 2025
Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models Jianshu Zeng Yuxuan Liu Yutong Feng Chenxuan Miao Zixiang Gao Jiwang Qu Jianzhang Zhang Bin Wang Kun Yuan VGen 157 3 0 18 Aug 2025
GaitCrafter: Diffusion Model for Biometric Preserving Gait Synthesis Sirshapan Mitra Yogesh S Rawat DiffM 124 0 0 18 Aug 2025
ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving Jingyu Li Bozhou Zhang Jianfeng Dong Jiankang Deng Xiatian Zhu Li Zhang 121 1 0 15 Aug 2025
CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models Xiaoxue Wu Bingjie Gao Yu Qiao Yaohui Wang Xinyuan Chen DiffM VGen 165 5 0 15 Aug 2025
ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing Lingen Li Guangzhi Wang Zhaoyang Zhang Yaowei Li Xiaoyu Li Qi Dou Jinwei Gu Tianfan Xue Mingyu Ding VGen 152 1 0 14 Aug 2025
AEGIS: Authenticity Evaluation Benchmark for AI-Generated Video Sequences J. Li Xin Zhang Joey Tianyi Zhou EGVM AAML 144 2 0 14 Aug 2025
A Survey on 3D Gaussian Splatting Applications: Segmentation, Editing, and Generation Shuting He Peilin Ji Yitong Yang Changshuo Wang Jiayi Ji Yinglin Wang Henghui Ding 3DGS 264 8 0 13 Aug 2025
PERSONA: Personalized Whole-Body 3D Avatar with Pose-Driven Deformations from a Single Image Geonhee Sim Gyeongsik Moon VGen 120 1 0 13 Aug 2025
GSFixer: Improving 3D Gaussian Splatting with Reference-Guided Video Diffusion Priors Xingyilang Yin Qi Zhang Jiahao Chang Ying Feng Qingnan Fan X. J. Yang Chi-Man Pun Huaqi Zhang Xiaodong Cun DiffM 3DGS VGen 115 7 0 13 Aug 2025
Preview WB-DH: Towards Whole Body Digital Human Bench for the Generation of Whole-body Talking Avatar Videos Chaoyi Wang Yifan Yang Jun Pei Lijie Xia Jianpo Liu Xiaobing Yuan Xinhan Di VGen 72 0 0 12 Aug 2025
RealisMotion: Decomposed Human Motion Control and Video Generation in the World Space Jingyun Liang Jingkai Zhou Shikai Li Chenjie Cao Lei Sun Yichen Qian Weihua Chen Fan Wang DiffM VGen 78 2 0 12 Aug 2025