Title
T2VTextBench: A Human Evaluation Benchmark for Textual Control in Video Generation Models Xuyang Guo Jiayan Huo Zhenmei Shi Zhao-quan Song Jiahao Zhang Jiale Zhao VGen 41 0 0 08 May 2025
Diffusion Model Quantization: A Review Qian Zeng Chenggong Hu Mingli Song Jie Song MQ 36 0 0 08 May 2025
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation Teng Hu Zhentao Yu Zhengguang Zhou Sen Liang Yuan Zhou Qin Lin Qinglin Lu DiffM VGen 42 0 0 07 May 2025
FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios Shiyi Zhang Junhao Zhuang Zhaoyang Zhang Ying Shan Yansong Tang VGen 52 0 0 06 May 2025
No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves D. Jiang Mengmeng Wang Liuzhuozheng Li Lei Zhang Haoyu Wang Wei Wei Guang Dai Yanning Zhang Jingdong Wang DiffM 35 0 0 05 May 2025
Learning 3D Persistent Embodied World Models Siyuan Zhou Yilun Du Yuncong Yang Lei Han Peihao Chen Dit-Yan Yeung Chuang Gan VGen 30 0 0 05 May 2025
DualReal: Adaptive Joint Training for Lossless Identity-Motion Fusion in Video Customization Wenchuan Wang Mengqi Huang Yijing Tu Zhendong Mao VGen 61 0 0 04 May 2025
Generating Animated Layouts as Structured Text Representations Yeonsang Shin Jihwan Kim Yumin Song Kyungseung Lee Hyunhee Chung Taeyoung Na DiffM VGen 61 0 0 02 May 2025
Controllable Weather Synthesis and Removal with Video Diffusion Models Chih-Hao Lin Z. Wang Ruofan Liang Yuxuan Zhang Sanja Fidler Shenlong Wang Zan Gojcic DiffM VGen 35 0 0 01 May 2025
T2VPhysBench: A First-Principles Benchmark for Physical Consistency in Text-to-Video Generation Xuyang Guo Jiayan Huo Zhenmei Shi Zhao-quan Song Jiahao Zhang Jiale Zhao EGVM VGen PINN 75 1 0 01 May 2025
A Survey of Interactive Generative Video Jiwen Yu Yiran Qin Haoxuan Che Quande Liu X. Wang Pengfei Wan Di Zhang Kun Gai Hao Chen Xihui Liu VGen 53 0 0 30 Apr 2025
Direct Motion Models for Assessing Generated Videos Kelsey R. Allen Carl Doersch Guangyao Zhou Mohammed Suhail Danny Driess ... Thomas Kipf Mehdi S. M. Sajjadi Kevin P. Murphy João Carreira Sjoerd van Steenkiste EGVM DiffM VGen 69 0 0 30 Apr 2025
AnimateAnywhere: Rouse the Background in Human Image Animation Xiaoyu Liu Mingshuai Yao Y. Zhang Xianhui Lin Peiran Ren X. Li Ming-Yu Liu W. Zuo 3DH DiffM 52 0 0 28 Apr 2025
We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback Minkyu Choi Sundar Sripada V. S. Harsh Goel Sahil Shah Sandeep P. Chinchali DiffM VGen 79 0 0 24 Apr 2025
BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation Ruotong Wang Mingli Zhu Jiarong Ou R. J. Chen Xin Tao Pengfei Wan Baoyuan Wu DiffM AAML VGen 38 0 0 23 Apr 2025
Subject-driven Video Generation via Disentangled Identity and Motion Daneul Kim Jingxu Zhang W. Jin Sunghyun Cho Qi Dai Jaesik Park Chong Luo DiffM VGen 103 0 0 23 Apr 2025
PMG: Progressive Motion Generation via Sparse Anchor Postures Curriculum Learning Yingjie Xi J. J. Zhang Xiaosong Yang 34 0 0 23 Apr 2025
T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models Siyuan Liang Jiayang Liu Jiecheng Zhai Tianmeng Fang Rongcheng Tu A. Liu Xiaochun Cao Dacheng Tao VGen 49 0 0 22 Apr 2025
Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning Wang Lin Liyu Jia Wentao Hu Kaihang Pan Zhongqi Yue Wei Zhao Jingyuan Chen Fei Wu Hanwang Zhang VGen 40 0 0 22 Apr 2025
DriVerse: Navigation World Model for Driving Simulation via Multimodal Trajectory Prompting and Motion Alignment X. Li Chenming Wu Zhao Yang Zhihao Xu Dingkang Liang Y. Zhang Ji Wan J. Wang VGen 62 1 0 22 Apr 2025
DiTPainter: Efficient Video Inpainting with Diffusion Transformers Xian Wu Chang Liu DiffM 24 0 0 22 Apr 2025
Tiger200K: Manually Curated High Visual Quality Video Dataset from UGC Platform Xianpan Zhou VGen 53 0 0 21 Apr 2025
Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation Chenjie Cao Jingkai Zhou Shikai Li Jingyun Liang Chaohui Yu Fan Wang Xiangyang Xue Yanwei Fu DiffM VGen 61 0 0 21 Apr 2025
DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation Weijie He Mushui Liu Yunlong Yu Zhao Wang Chao Wu DiffM VGen 58 0 0 21 Apr 2025
Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis Jingjing Ren Wenbo Li Zhongdao Wang Haoze Sun Bangzhen Liu ... Aoxue Li Shifeng Zhang Bin Shao Yong Guo Lei Zhu VGen 24 0 0 20 Apr 2025
SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation Minho Park Taewoong Kang Jooyeol Yun Sungwon Hwang Jaegul Choo VGen MDE 17 0 0 19 Apr 2025
Physical Reservoir Computing in Hook-Shaped Rover Wheel Spokes for Real-Time Terrain Identification Xiao Jin Zihan Wang Zhenhua Yu Changrak Choi Kalind Carpenter T. Nanayakkara 20 0 0 17 Apr 2025
SkyReels-V2: Infinite-length Film Generative Model Guibin Chen D. Lin Jiangping Yang Chunze Lin J. Zhu ... Di Qiu Debang Li Zhengcong Fei Yang Li Yahui Zhou DiffM VGen 43 1 0 17 Apr 2025
Understanding Attention Mechanism in Video Diffusion Models Bingyan Liu Chengyu Wang Tongtong Su Huan Ten Jun Huang K. Guo Kui Jia VGen 54 0 0 16 Apr 2025
The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation Bingjie Gao Xinyu Gao Xiaoxue Wu Yujie Zhou Yu Qiao Li Niu Xinyuan Chen Yaohui Wang 66 0 0 16 Apr 2025
Fine-Tuning Large Language Models on Quantum Optimization Problems for Circuit Generation Linus Jern Valter Uotila Cong Yu Bo Zhao MQ LRM 18 0 0 15 Apr 2025
OmniVDiff: Omni Controllable Video Diffusion for Generation and Understanding Dianbing Xi J. Wang Yuanzhi Liang Xi Qiu Yuchi Huo R. Wang Chi Zhang X. Li DiffM VGen 62 0 0 15 Apr 2025
SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL Junke Wang Zhi Tian X. Wang Xinyu Zhang Weilin Huang Zuxuan Wu Yu Jiang VGen 37 2 0 15 Apr 2025
Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting Jiaxin Huang Sheng Miao BangBnag Yang Yuewen Ma Yiyi Liao VGen MDE 23 0 0 15 Apr 2025
EquiVDM: Equivariant Video Diffusion Models with Temporally Consistent Noise Chao Liu Arash Vahdat DiffM VGen 42 0 0 14 Apr 2025
FingER: Content Aware Fine-grained Evaluation with Reasoning for AI-Generated Videos Rui Chen Lei Sun Jing Tang Geng Li Xiangxiang Chu LRM 16 0 0 14 Apr 2025
H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models Yushu Wu Yanyu Li Ivan Skorokhodov Anil Kag Willi Menapace Sharath Girish Aliaksandr Siarohin Yanzhi Wang Sergey Tulyakov DiffM VGen 33 0 0 14 Apr 2025
Analysis of Attention in Video Diffusion Transformers Yuxin Wen Jim Wu Ajay Jain Tom Goldstein Ashwinee Panda 25 1 0 14 Apr 2025
Decoupled Diffusion Sparks Adaptive Scene Generation Yunsong Zhou Naisheng Ye William Ljungbergh Tianyu Li Jiazhi Yang Zetong Yang Hongzi Zhu Christoffer Petersson Hongyang Li 28 1 0 14 Apr 2025
Aligning Anime Video Generation with Human Feedback Bingwen Zhu Yudong Jiang Baohan Xu Siqian Yang Mingyu Yin Yidi Wu Huyang Sun Zuxuan Wu EGVM VGen 42 0 0 14 Apr 2025
D $^2$ iT: Dynamic Diffusion Transformer for Accurate Image Generation Weinan Jia Mengqi Huang Nan Chen Lei Zhang Zhendong Mao 16 0 0 13 Apr 2025
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization Jialu Li Shoubin Yu Han Lin Jaemin Cho Jaehong Yoon Mohit Bansal DiffM VGen 45 0 0 11 Apr 2025
Generative AI for Film Creation: A Survey of Recent Advances Ruihan Zhang Borou Yu Jiajian Min Yetong Xin Zheng Wei ... Sijia Jiang Peiwen Huang Na Chen Xuanxuan Liu Anyi Rao VGen 55 0 0 11 Apr 2025
TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation Ruineng Li Daitao Xing Huiming Sun Yuanzhou Ha Jinglin Shen C. Ho DiffM VGen 37 0 0 11 Apr 2025
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft Junliang Guo Yang Ye Tianyu He Haoyu Wu Yushu Jiang Tim Pearce Jiang Bian VGen SyDa 49 2 0 11 Apr 2025
RealCam-Vid: High-resolution Video Dataset with Dynamic Scenes and Metric-scale Camera Movements Guangcong Zheng Teng Li Xianpan Zhou Xi Li VGen 3DV 51 1 0 11 Apr 2025
Discriminator-Free Direct Preference Optimization for Video Diffusion Haoran Cheng Qide Dong Liang Peng Zhizhou Sha Weiguo Feng Jinghui Xie Zhao Song Shilei Wen Xiaofei He Boxi Wu VGen 26 0 0 11 Apr 2025
PixelFlow: Pixel-Space Generative Models with Flow Shoufa Chen Chongjian Ge Shilong Zhang Peize Sun Ping Luo VLM DRL 33 0 0 10 Apr 2025
Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos Rundong Luo Matthew Wallingford Ali Farhadi Noah Snavely Wei-Chiu Ma VGen 19 0 0 10 Apr 2025
SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets Yuhang Yang Fengqi Liu Yixing Lu Qin Zhao Pingyu Wu ... Ran Yi Yang Cao Lizhuang Ma Zheng-jun Zha Junting Dong 3DGS 27 0 0 09 Apr 2025