Title
Direct Motion Models for Assessing Generated Videos Kelsey R. Allen Carl Doersch Guangyao Zhou Mohammed Suhail Danny Driess ... Thomas Kipf Mehdi S. M. Sajjadi Kevin P. Murphy João Carreira Sjoerd van Steenkiste EGVM DiffM VGen 71 0 0 30 Apr 2025
FingER: Content Aware Fine-grained Evaluation with Reasoning for AI-Generated Videos Rui Chen Lei Sun Jing Tang Geng Li Xiangxiang Chu LRM 18 0 0 14 Apr 2025
Video-Bench: Human-Aligned Video Generation Benchmark Hui Han Siyuan Li Jiaqi Chen Yiwen Yuan Yuling Wu ... Y. Li J. Zhang Chi Zhang Li Li Yongxin Ni EGVM VGen 65 0 0 07 Apr 2025
VideoGen-Eval: Agent-based System for Video Generation Evaluation Yuhang Yang Ke Fan S. Hongxiang Li Ailing Zeng FeiLin Han Wei-dong Zhai W. Liu Yang Cao Zheng-jun Zha EGVM VGen 73 0 0 30 Mar 2025
Can Text-to-Video Generation help Video-Language Alignment? Luca Zanella Massimiliano Mancini Willi Menapace Sergey Tulyakov Yiming Wang Elisa Ricci DiffM VGen 50 0 0 24 Mar 2025
UVE: Are MLLMs Unified Evaluators for AI-Generated Videos? Yuanxin Liu Rui Zhu Shuhuai Ren Jiacong Wang Haoyuan Guo Xu Sun Lu Jiang 56 1 0 13 Mar 2025
GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning Zhun Mou Bin Xia Zhengchao Huang Wenming Yang Jiaya Jia VGen ELM LRM 58 0 0 04 Mar 2025
WorldModelBench: Judging Video Generation Models As World Models Dacheng Li Yunhao Fang Yukang Chen Shuo Yang Shiyi Cao ... Hongxu Yin Joseph E. Gonzalez Ion Stoica Song Han Y. Lu VGen 52 3 0 28 Feb 2025
VideoDPO: Omni-Preference Alignment for Video Diffusion Generation Runtao Liu Haoyu Wu Zheng Ziqiang Chen Wei Yingqing He Renjie Pi Qifeng Chen VGen 75 5 0 18 Dec 2024
Neuro-Symbolic Evaluation of Text-to-Video Models using Formal Verification Sundar Sripada V. S. Minkyu Choi Sahil Shah Harsh Goel Mohammad Omama Sandeep P. Chinchali EGVM 105 2 0 22 Nov 2024
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models Rui Zhao Hangjie Yuan Yujie Wei Shiwei Zhang Yuchao Gu ... Xiang Wang Zhangjie Wu Junhao Zhang Yingya Zhang Mike Zheng Shou DiffM VLM 50 2 0 09 Oct 2024
The Art of Storytelling: Multi-Agent Generative AI for Dynamic Multimodal Narratives Samee Arif Taimoor Arif Muhammad Saad Haroon Aamina Jamal Khan Agha Ali Raza Awais Athar 16 0 0 17 Sep 2024
K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences Zhikai Li Xuewen Liu Dongrong Fu Jianquan Li Qingyi Gu Kurt Keutzer Zhen Dong EGVM VGen DiffM 63 1 0 26 Aug 2024
ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation Shenghai Yuan Jinfa Huang Yongqi Xu Yaoyang Liu Shaofeng Zhang Yujun Shi Ruijie Zhu Xinhua Cheng Jiebo Luo Li Yuan EGVM VGen 66 1 0 26 Jun 2024
VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation Xuan He Dongfu Jiang Ge Zhang Max W.F. Ku Achint Soni ... Yaswanth Narsupalli Rongqi Fan Zhiheng Lyu Yuchen Lin Wenhu Chen EGVM VGen ALM 33 38 0 21 Jun 2024
GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation Baiqi Li Zhiqiu Lin Deepak Pathak Jiayao Li Yixin Fei ... Tiffany Ling Xide Xia Pengchuan Zhang Graham Neubig Deva Ramanan EGVM 29 17 0 19 Jun 2024
Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality Tianle Zhang Langtian Ma Yuchen Yan Yuchen Zhang Kai Wang ... Wenqi Shao Yang You Yu Qiao Ping Luo Kaipeng Zhang VGen 58 2 0 13 Jun 2024
TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation Weixi Feng Jiachen Li Michael Stephen Saxon Tsu-jui Fu Wenhu Chen William Yang Wang EGVM VGen 16 8 0 12 Jun 2024
T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback Jiachen Li Weixi Feng Tsu-jui Fu Xinyi Wang Sugato Basu Wenhu Chen William Yang Wang VGen 16 27 0 29 May 2024
Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability Shenyuan Gao Jiazhi Yang Li Chen Kashyap Chitta Yihang Qiu Andreas Geiger Jun Zhang Hongyang Li 23 75 0 27 May 2024
Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond Zheng Zhu Xiaofeng Wang Wangbo Zhao Chen Min Nianchen Deng ... Dawei Zhao Liang Xiao Jian-jun Zhao Jiwen Lu Guan Huang VGen LM&Ro 76 35 0 06 May 2024
EffiVED:Efficient Video Editing via Text-instruction Diffusion Models Zhenghao Zhang Zuozhuo Dai Long Qin Weizhi Wang DiffM VGen 29 0 0 18 Mar 2024
VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models Wenhao Wang Yi Yang VGen DiffM 24 30 0 10 Mar 2024
VideoSwap: Customized Video Subject Swapping with Interactive Semantic Point Correspondence Yuchao Gu Yipin Zhou Bichen Wu Licheng Yu Jia-Wei Liu Rui Zhao Jay Zhangjie Wu David Junhao Zhang Mike Zheng Shou Kevin Tang DiffM VGen 57 36 0 04 Dec 2023
mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration Qinghao Ye Haiyang Xu Jiabo Ye Mingshi Yan Anwen Hu Haowei Liu Qi Qian Ji Zhang Fei Huang Jingren Zhou MLLM VLM 114 367 0 07 Nov 2023
A Survey on Video Diffusion Models Zhen Xing Qijun Feng Haoran Chen Qi Dai Hang-Rui Hu Hang Xu Zuxuan Wu Yu-Gang Jiang EGVM VGen 50 112 0 16 Oct 2023
Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video Quality Assessment Haoning Wu Liang Liao Annan Wang Chaofeng Chen Jingwen Hou Wenxiu Sun Qiong Yan Weisi Lin 54 11 0 28 Apr 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
Deepfake: Definitions, Performance Metrics and Standards, Datasets and Benchmarks, and a Meta-Review Enes ALTUNCU V. N. Franqueira Shujun Li 6 11 0 21 Aug 2022
FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment Sampling Haoning Wu Chaofeng Chen Jingwen Hou Liang Liao Annan Wang Wenxiu Sun Qiong Yan Weisi Lin 65 76 0 06 Jul 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 319 2,108 0 02 Sep 2021
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 226 74,467 0 18 May 2015