Title
Fast Flow-based Visuomotor Policies via Conditional Optimal Transport Couplings Andreas Sochopoulos Nikolay Malkin Nikolaos Tsagkas João Moura Michael Gienger S. Vijayakumar 31 1 0 02 May 2025
Flow Along the K-Amplitude for Generative Modeling Weitao Du Shuning Chang Jiasheng Tang Yu Rong F. Wang Shengchao Liu 44 0 0 27 Apr 2025
WORLDMEM: Long-term Consistent World Simulation with Memory Zeqi Xiao Yushi Lan Yifan Zhou Wenqi Ouyang Shuai Yang Yanhong Zeng Xingang Pan 73 0 0 16 Apr 2025
The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation Bingjie Gao Xinyu Gao Xiaoxue Wu Yujie Zhou Yu Qiao Li Niu Xinyuan Chen Yaohui Wang 66 0 0 16 Apr 2025
EquiVDM: Equivariant Video Diffusion Models with Temporally Consistent Noise Chao Liu Arash Vahdat DiffM VGen 37 0 0 14 Apr 2025
PixelFlow: Pixel-Space Generative Models with Flow Shoufa Chen Chongjian Ge Shilong Zhang Peize Sun Ping Luo VLM DRL 33 0 0 10 Apr 2025
Can You Count to Nine? A Human Evaluation Benchmark for Counting Limits in Modern Text-to-Video Models Xuyang Guo Zekai Huang Jiayan Huo Yingyu Liang Zhenmei Shi Zhao-quan Song Jiahao Zhang ALM VGen 48 2 0 05 Apr 2025
Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments Chenyu Zhang Daniil Cherniavskii Andrii Zadaianchuk Antonios Tragoudaras Antonios Vozikis Thijmen Nijdam Derck W. E. Prinzhorn Mark Bodracska N. Sebe E. Gavves EGVM VGen 41 0 0 03 Apr 2025
Can Test-Time Scaling Improve World Foundation Model? Wenyan Cong Hanqing Zhu Peihao Wang Bangya Liu Dejia Xu Kevin Wang David Z. Pan Yan Wang Zhiwen Fan Z. Wang 29 0 0 31 Mar 2025
VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior Xindi Yang Baolu Li Y. Zhang Zhenfei Yin Lei Bai ... Zhiyong Wang Jianfei Cai Tien-Tsin Wong Huchuan Lu Xu Jia DiffM VGen 36 0 0 30 Mar 2025
VideoGen-Eval: Agent-based System for Video Generation Evaluation Yuhang Yang Ke Fan S. Hongxiang Li Ailing Zeng FeiLin Han Wei-dong Zhai W. Liu Yang Cao Zheng-jun Zha EGVM VGen 73 0 0 30 Mar 2025
EchoFlow: A Foundation Model for Cardiac Ultrasound Image and Video Generation Hadrien Reynaud Alberto Gomez Paul Leeson Qingjie Meng B. Kainz MedIm 54 0 0 28 Mar 2025
Reasoning Beyond Limits: Advances and Open Problems for LLMs M. Ferrag Norbert Tihanyi Merouane Debbah ELM OffRL LRM AI4CE 56 2 0 26 Mar 2025
AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset Haiyu Zhang Xinyuan Chen Yaohui Wang Xihui Liu Yunhong Wang Yu Qiao VGen 59 0 0 25 Mar 2025
Long-Context Autoregressive Video Modeling with Next-Frame Prediction Yuchao Gu Weijia Mao Mike Zheng Shou VGen 67 1 0 25 Mar 2025
Aether: Geometric-Aware Unified World Modeling Aether Team Haoyi Zhu Y. Wang Jianjun Zhou Wenzheng Chang ... Zizun Li Junyi Chen Chunhua Shen Jiangmiao Pang Tong He DiffM VGen 51 2 0 24 Mar 2025
U-REPA: Aligning Diffusion U-Nets to ViTs Yuchuan Tian Hanting Chen Mengyu Zheng Yuchen Liang Chao Xu Yunhe Wang 51 0 0 24 Mar 2025
Video-T1: Test-Time Scaling for Video Generation F. Liu Hanyang Wang Yimo Cai Kaiyan Zhang Xiaohang Zhan Yueqi Duan DiffM VGen 73 1 0 24 Mar 2025
Training-free Diffusion Acceleration with Bottleneck Sampling Ye Tian Xin Xia Yuxi Ren Shanchuan Lin Xing Wang Xuefeng Xiao Yunhai Tong L. Yang Bin Cui 49 0 0 24 Mar 2025
ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos Haolin Yang Feilong Tang Ming Hu Yulong Li Junjie Guo Yexin Liu Zelin Peng Junjun He Zongyuan Ge VGen DiffM 92 0 0 20 Mar 2025
Taming Flow Matching with Unbalanced Optimal Transport into Fast Pansharpening Zihan Cao Yu Zhong Liang-Jian Deng OT 36 0 0 19 Mar 2025
Deeply Supervised Flow-Based Generative Models Inkyu Shin Chenglin Yang Liang-Chieh Chen 58 0 0 18 Mar 2025
Impossible Videos Zechen Bai Hai Ci Mike Zheng Shou EGVM VGen 67 0 0 18 Mar 2025
Concat-ID: Towards Universal Identity-Preserving Video Synthesis Yong Zhong Zhuoyi Yang Jiayan Teng Xiaotao Gu Chongxuan Li VGen 60 0 0 18 Mar 2025
FiVE: A Fine-grained Video Editing Benchmark for Evaluating Emerging Diffusion and Rectified Flow Models Minghan Li C. Xie Y. Wu Lei Zhang M. Wang DiffM VGen 50 0 0 17 Mar 2025
TPDiff: Temporal Pyramid Video Diffusion Model L. Ran Mike Zheng Shou 73 0 0 12 Mar 2025
Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework Jing Wang Fengzhuo Zhang Xiaoli Li Vincent Y. F. Tan Tianyu Pang Chao Du Aixin Sun Zhuoran Yang VGen 59 1 0 12 Mar 2025
NAMI: Efficient Image Generation via Progressive Rectified Flow Transformers Yuhang Ma Bo Cheng Shanyuan Liu Ao Ma Xiaoyu Wu Liebucha Wu Dawei Leng Yuhui Yin 50 0 0 12 Mar 2025
PISA Experiments: Exploring Physics Post-Training for Video Diffusion Models by Watching Stuff Drop Chenyu Li Oscar Michel Xichen Pan Sainan Liu Mike Roberts Saining Xie VGen 45 3 0 12 Mar 2025
HOFAR: High-Order Augmentation of Flow Autoregressive Transformers Yingyu Liang Zhizhou Sha Zhenmei Shi Zhao-quan Song Mingda Wan 52 1 0 11 Mar 2025
VRMDiff: Text-Guided Video Referring Matting Generation of Diffusion Lehan Yang Jincen Song Tianlong Wang Daiqing Qi Weili Shi Yuheng Liu Sheng Li DiffM VOS VGen 69 0 0 11 Mar 2025
Generative Video Bi-flow Chen Liu Tobias Ritschel DiffM VGen 32 0 0 09 Mar 2025
VACT: A Video Automatic Causal Testing System and a Benchmark Haotong Yang Qingyuan Zheng Yunjian Gao Yongkun Yang Yangbo He Zhouchen Lin Muhan Zhang VGen CML 49 0 0 08 Mar 2025
VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation Wenhao Wang Y. Yang DiffM VGen 79 0 0 03 Mar 2025
VaViM and VaVAM: Autonomous Driving through Video Generative Modeling Florent Bartoccioni Elias Ramzi Victor Besnier Shashanka Venkataramanan Tuan-Hung Vu ... Mickael Chen Éloi Zablocki Andrei Bursuc Eduardo Valle Matthieu Cord VGen 57 1 0 24 Feb 2025
On Computational Limits of FlowAR Models: Expressivity and Efficiency Chengyue Gong Yekun Ke Xiaoyu Li Yingyu Liang Zhizhou Sha Zhenmei Shi Zhao-quan Song 41 3 0 23 Feb 2025
History-Guided Video Diffusion Kiwhan Song Boyuan Chen Max Simchowitz Yilun Du Russ Tedrake Vincent Sitzmann VGen 109 5 0 10 Feb 2025
Video Latent Flow Matching: Optimal Polynomial Projections for Video Interpolation and Extrapolation Yang Cao Zhao-quan Song Chiwun Yang VGen 39 2 0 01 Feb 2025
E-CAR: Efficient Continuous Autoregressive Image Generation via Multistage Modeling Zhihang Yuan Yuzhang Shang H. Zhang Tongcheng Fang Rui Xie Bingxin Xu Yan Yan Shengen Yan Guohao Dai Yu Wang DiffM 84 1 0 18 Dec 2024
Is Your World Simulator a Good Story Presenter? A Consecutive Events-Based Benchmark for Future Long Video Generation Yiping Wang Xuehai He Kuan-Chieh Jackson Wang Luyao Ma Jianwei Yang Shuohang Wang Simon S. Du Yelong Shen VGen 72 2 0 17 Dec 2024
SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device Yushu Wu Zhixing Zhang Yanyu Li Yanwu Xu Anil Kag ... Ju Hu Dimitris N. Metaxas Yanzhi Wang Sergey Tulyakov Jian Ren DiffM VGen 85 2 0 13 Dec 2024
FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion Haonan Qiu Shiwei Zhang Yujie Wei Ruihang Chu Hangjie Yuan X. Wang Y. Zhang Ziwei Liu 87 4 0 12 Dec 2024
From Slow Bidirectional to Fast Autoregressive Video Diffusion Models Tianwei Yin Qiang Zhang Richard Zhang William T. Freeman F. Durand Eli Shechtman Xun Huang VGen DiffM 71 4 0 10 Dec 2024
DiffSLT: Enhancing Diversity in Sign Language Translation via Diffusion Model JiHwan Moon Jihoon Park Jungeun Kim Jongseong Bae Hyeongwoo Jeon Ha Young Kim 75 1 0 26 Nov 2024
Generating 3D-Consistent Videos from Unposed Internet Photos Gene Chou Kai Zhang Sai Bi Hao Tan Zexiang Xu Fujun Luan Bharath Hariharan Noah Snavely 3DGS VGen 64 3 0 20 Nov 2024
Autoregressive Models in Vision: A Survey Jing Xiong Gongye Liu Lun Huang Chengyue Wu Taiqiang Wu ... M. Zhang Guillermo Sapiro Jiebo Luo Ping Luo Ngai Wong VGen 38 9 0 08 Nov 2024
Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective Shenghao Xie Wenqiang Zu Mingyang Zhao Duo Su Shilong Liu Ruohua Shi Guoqi Li Shanghang Zhang Lei Ma LRM 38 3 0 29 Oct 2024
Latte: Latent Diffusion Transformer for Video Generation Xin Ma Yaohui Wang Gengyun Jia Xinyuan Chen Z. Liu Yuan-Fang Li Cunjian Chen Yu Qiao DiffM VGen 123 227 0 05 Jan 2024