Title
DualReal: Adaptive Joint Training for Lossless Identity-Motion Fusion in Video Customization Wenchuan Wang Mengqi Huang Yijing Tu Zhendong Mao VGen 51 51 0 04 May 2025
VIDSTAMP: A Temporally-Aware Watermark for Ownership and Integrity in Video Diffusion Models Mohammadreza Teymoorianfard Shiqing Ma Amir Houmansadr WIGM 45 34 0 02 May 2025
FreePCA: Integrating Consistency Information across Long-short Frames in Training-free Long Video Generation via Principal Component Analysis Jiangtong Tan Hu Yu Jie Huang Jie Xiao Feng Zhao 29 47 0 02 May 2025
VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations for Synthetic Videos Zongxia Li Xiyang Wu Yubin Qin Guangyao Shi Hongyang Du Dinesh Manocha Tianyi Zhou Jordan Boyd-Graber MLLM 33 63 0 02 May 2025
SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding Chenkai Zhang Yiming Lei Z. Liu Haitao Leng Shaoguo Liu Tingting Gao Qingjie Liu Yunhong Wang AI4TS 38 40 0 30 Apr 2025
We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback Minkyu Choi Sundar Sripada V. S. Harsh Goel Sahil Shah Sandeep P. Chinchali DiffM VGen 69 74 0 24 Apr 2025
Subject-driven Video Generation via Disentangled Identity and Motion Daneul Kim Jingxu Zhang W. Jin Sunghyun Cho Qi Dai Jaesik Park Chong Luo DiffM VGen 100 39 0 23 Apr 2025
The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation Bingjie Gao Xinyu Gao Xiaoxue Wu Yujie Zhou Yu Qiao Li Niu Xinyuan Chen Yaohui Wang 58 48 0 16 Apr 2025
Video-Bench: Human-Aligned Video Generation Benchmark Hui Han Siyuan Li Jiaqi Chen Yiwen Yuan Yuling Wu ... Y. Li J. Zhang Chi Zhang Li Li Yongxin Ni EGVM VGen 60 63 0 07 Apr 2025
VideoGen-Eval: Agent-based System for Video Generation Evaluation Yuhang Yang Ke Fan S. Hongxiang Li Ailing Zeng FeiLin Han Wei-dong Zhai W. Liu Yang Cao Zheng-jun Zha EGVM VGen 70 67 0 30 Mar 2025
Neuro-Symbolic Evaluation of Text-to-Video Models using Formal Verification Sundar Sripada V. S. Minkyu Choi Sahil Shah Harsh Goel Mohammad Omama Sandeep P. Chinchali EGVM 74 47 0 22 Nov 2024
Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content Qiuheng Wang Yukai Shi Jiarong Ou R. J. Chen Ke Lin ... Mingwu Zheng Xin Tao Fei Yang Pengfei Wan Di Zhang VGen 69 39 0 10 Oct 2024
Lumiere: A Space-Time Diffusion Model for Video Generation Omer Bar-Tal Hila Chefer Omer Tov Charles Herrmann Roni Paiss ... T. Michaeli Oliver Wang Deqing Sun Tali Dekel Inbar Mosseri VGen 82 90 0 23 Jan 2024
VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models Haoxin Chen Yong Zhang Xiaodong Cun Menghan Xia Xintao Wang Chao-Liang Weng Ying Shan VGen DiffM 98 75 0 17 Jan 2024
MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation Weimin Wang Jiawei Liu Zhijie Lin Jiangqiao Yan Shuo Chen ... Jie Wu Jun Hao Liew Hanshu Yan Daquan Zhou Jiashi Feng VGen DiffM 38 14 0 09 Jan 2024
Latte: Latent Diffusion Transformer for Video Generation Xin Ma Yaohui Wang Gengyun Jia Xinyuan Chen Z. Liu Yuan-Fang Li Cunjian Chen Yu Qiao DiffM VGen 106 92 0 05 Jan 2024
Holistic Evaluation of Text-To-Image Models Tony Lee Michihiro Yasunaga Chenlin Meng Yifan Mai Joon Sung Park ... Jun-Yan Zhu Fei-Fei Li Jiajun Wu Stefano Ermon Percy Liang 102 55 0 07 Nov 2023
Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models Weifeng Chen Yatai Ji Jie Wu Hefeng Wu Pan Xie Jiashi Li Xin Xia Xuefeng Xiao Liang Lin VGen 102 90 0 23 May 2023
Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video Quality Assessment Haoning Wu Liang Liao Annan Wang Chaofeng Chen Jingwen Hou Wenxiu Sun Qiong Yan Weisi Lin 33 11 0 28 Apr 2023
Motion-Conditioned Diffusion Model for Controllable Video Synthesis Tsai-Shien Chen C. Lin Hung-Yu Tseng Tsung-Yi Lin Ming Yang DiffM VGen 32 37 0 27 Apr 2023
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation Zhengxiong Luo Dayou Chen Yingya Zhang Yan Huang Liangsheng Wang Yujun Shen Deli Zhao Jinren Zhou Tien-Ping Tan DiffM VGen 111 200 0 15 Mar 2023
Tag2Text: Guiding Vision-Language Model via Image Tagging Xinyu Huang Youcai Zhang Jinyu Ma Weiwei Tian Rui Feng Yuejie Zhang Yaqian Li Yandong Guo Lei Zhang CLIP MLLM VLM 3DV 41 44 0 10 Mar 2023
Neighbourhood Representative Sampling for Efficient End-to-end Video Quality Assessment Haoning Wu Chaofeng Chen Liang Liao Jingwen Hou Wenxiu Sun Qiong Yan Jinwei Gu Weisi Lin 30 23 0 11 Oct 2022
FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment Sampling Haoning Wu Chaofeng Chen Jingwen Hou Liang Liao Annan Wang Wenxiu Sun Qiong Yan Weisi Lin 38 76 0 06 Jul 2022
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang DiffM 235 328 0 29 May 2022
Flexible Diffusion Modeling of Long Videos William Harvey Saeid Naderiparizi Vaden Masrani Christian Weilbach Frank D. Wood DiffM BDL VGen 161 207 0 23 May 2022
Talk-to-Edit: Fine-Grained Facial Editing via Dialog Yuming Jiang Ziqi Huang Xingang Pan Chen Change Loy Ziwei Liu DiffM 80 92 0 09 Sep 2021
MUSIQ: Multi-scale Image Quality Transformer Junjie Ke Qifei Wang Yilin Wang P. Milanfar Feng Yang 131 332 0 12 Aug 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 280 4,273 0 29 Apr 2021
A Style-Based Generator Architecture for Generative Adversarial Networks Tero Karras S. Laine Timo Aila 253 7,682 0 12 Dec 2018