Title
Sparse-View 3D Reconstruction: Recent Advances and Open Challenges Tanveer Younis Zhanglin Cheng 3DGS 189 1 0 22 Jul 2025
StableAnimator++: Overcoming Pose Misalignment and Face Distortion for Human Image Animation S. Tu Zhen Xing Xintong Han Zhi-Qi Cheng Qi Dai Chong Luo Zuxuan Wu Yu Jiang DiffM VGen 131 6 0 20 Jul 2025
Taming Diffusion Transformer for Efficient Mobile Video Generation in Seconds Yushu Wu Yanyu Li Vidit Goel Ivan Skorokhodov Willi Menapace ... Ju Hu Aliaksandr Siarohin Dhritiman Sagar Yanzhi Wang Sergey Tulyakov VGen 212 0 0 17 Jul 2025
DeepShade: Enable Shade Simulation by Text-conditioned Image GenerationInternational Joint Conference on Artificial Intelligence (IJCAI), 2024 Longchao Da Xiangrui Liu Mithun Shivakoti Thirulogasankar Pranav Kutralingam Yezhou Yang Hua Wei 185 1 0 16 Jul 2025
LidarPainter: One-Step Away From Any Lidar View To Novel Guidance Yuzhou Ji Ke Ma Hong Cai Anchun Zhang Lizhuang Ma Xin Tan DiffM 116 0 0 16 Jul 2025
Sketch-based Fluid Video Generation Using Motion-Guided Diffusion Models in Still Landscape Images H. Jin H. Xie DiffM VGen 92 0 0 15 Jul 2025
Taming generative video models for zero-shot optical flow extraction Seungwoo Kim Khai Loong Aw Klemen Kotar Cristobal Eyzaguirre Wanhee Lee ... Jared Watrous Stefan Stojanov Juan Carlos Niebles Jiajun Wu Daniel L. K. Yamins VGen 30 2 0 11 Jul 2025
Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling Meihua Dang Jiaqi Han Minkai Xu Kai Xu Akash Srivastava Stefano Ermon DiffM 94 7 0 11 Jul 2025
AirScape: An Aerial Generative World Model with Motion Controllability Baining Zhao Rongze Tang Mingyuan Jia Ziyou Wang Fanghang Man ... W. Zhang Wei Wu Chen Gao Xinlei Chen Yong Li VGen 131 3 0 10 Jul 2025
Voyaging into Perpetual Dynamic Scenes from a Single View Fengrui Tian Tianjiao Ding Jinqi Luo Hancheng Min René Vidal VGen 171 0 0 05 Jul 2025
TriVLA: A Triple-System-Based Unified Vision-Language-Action Model with Episodic World Modeling for General Robot Control Zhenyang Liu Yongchong Gu Sixiao Zheng Yanwei Fu Xiangyang Xue Yu-Gang Jiang 228 3 0 02 Jul 2025
DepthSync: Diffusion Guidance-Based Depth Synchronization for Scale- and Geometry-Consistent Video Depth Estimation Yue-Jiang Dong Wang Zhao Jiale Xu Ying Shan Song-Hai Zhang DiffM MDE 262 2 0 02 Jul 2025
LatentMove: Towards Complex Human Movement Video Generation Ashkan Taghipour Morteza Ghahremani Mohammed Bennamoun F. Boussaïd Aref Miri Rekavandi Zinuo Li Qiuhong Ke Hamid Laga 3DH VGen 235 1 0 01 Jul 2025
DepthART: Monocular Depth Estimation as Autoregressive Refinement Task Bulat Gabdullin Nina Konovalova Nikolay Patakin Dmitry Senushkin Anton Konushin MDE 336 2 0 01 Jul 2025
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models Gaojie Lin Jianwen Jiang Jiaqi Yang Zerong Zheng Chao Liang DiffM VGen 1.2K 80 0 01 Jul 2025
Edit360: 2D Image Edits to 3D Assets from Any Angle Junchao Huang Xinting Hu Zhuotao Tian Shaoshuai Shi Li Jiang VGen 244 4 0 01 Jul 2025
A Survey: Learning Embodied Intelligence from Physical Simulators and World Models Xiaoxiao Long Qingrui Zhao Kaiwen Zhang Zihao Zhang Dingrui Wang ... Jia Pan Qiu Shen Ruigang Yang X. Cao Qionghai Dai LM&Ro AI4CE 270 18 0 01 Jul 2025
OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions Yuanhao Cai Chentao Song Xi Chen Jinbo Xing Yiwei Hu ... Tianyu Wang Y. Zhang Xiaokang Yang Zhe Lin Alan Yuille DiffM VGen 238 3 0 29 Jun 2025
AlignCVC: Aligning Cross-View Consistency for Single-Image-to-3D Generation Xinyue Liang Zhiyuan Ma Lingchen Sun Yanjun Guo Lei Zhang 89 1 0 29 Jun 2025
RGE-GS: Reward-Guided Expansive Driving Scene Reconstruction via Diffusion Priors Sicong Du Jiarun Liu Qifeng Chen Hao-Xiang Chen Tai-Jiang Mu Maochun Luo 3DGS 336 1 0 28 Jun 2025
Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy Yuhao Liu Tengfei Wang Fang Liu Zhenwei Wang Rynson W. H. Lau DiffM VGen 167 2 0 27 Jun 2025
Compressed and Smooth Latent Space for Text Diffusion Modeling Viacheslav Meshchaninov Egor Chimbulatov Alexander Shabalin Aleksandr Abramov Dmitry Vetrov 153 3 0 26 Jun 2025
Ctrl-Z Sampling: Diffusion Sampling with Controlled Random Zigzag Explorations Shunqi Mao Wei Guo Chaoyi Zhang Jieting Long Ke Xie Weidong Cai DiffM 273 1 0 25 Jun 2025
StereoDiff: Stereo-Diffusion Synergy for Video Depth Estimation Haodong Li Chen Wang Jiahui Lei Kostas Daniilidis Lingjie Liu DiffM VGen MDE 228 3 0 25 Jun 2025
CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling Hao Li Shuai Yang Yilun Chen Xinyi Chen Xiaoda Yang ... Hanqing Wang Tai Wang Dahua Lin Feng Zhao Jiangmiao Pang 154 6 0 24 Jun 2025
Elucidated Rolling Diffusion Models for Probabilistic Forecasting of Complex Dynamics Salva Rühling Cachay M. Aittala Karsten Kreis Noah D. Brenowitz Arash Vahdat Morteza Mardani Rose Yu DiffM 302 2 0 24 Jun 2025
Emergent Temporal Correspondences from Video Diffusion Transformers Jisu Nam Soowon Son Dahyun Chung Jiyoung Kim Siyoon Jin Junhwa Hur Seungryong Kim VGen 298 9 0 20 Jun 2025
Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition Jiaqi Li Junshu Tang Zhiyong Xu Longhuang Wu Yuan Zhou Shuai Shao Tianbao Yu Zhiguo Cao Qinglin Lu DiffM VGen 164 18 0 20 Jun 2025
FastInit: Fast Noise Initialization for Temporally Consistent Video Generation Chengyu Bai Yuming Li Zhongyu Zhao Jintao Chen Peidong Jia Qi She Ming Lu Shanghang Zhang DiffM VGen 174 1 0 19 Jun 2025
Advanced Sign Language Video Generation with Compressed and Quantized Multi-Condition Tokenization Cong Wang Zexuan Deng Zhiwei Jiang Fei Shen Yafeng Yin Shiwei Gan Zifeng Cheng Shiwei Gan Qing Gu DiffM SLR VGen 362 2 0 19 Jun 2025
One-Step Diffusion for Detail-Rich and Temporally Consistent Video Super-Resolution Yujing Sun Lingchen Sun Shuaizheng Liu Rongyuan Wu Zhengqiang Zhang Lei Zhang DiffM VGen 289 4 0 18 Jun 2025
Show-o2: Improved Native Unified Multimodal Models Jinheng Xie Zhenheng Yang Mike Zheng Shou VGen 423 81 0 18 Jun 2025
UniRelight: Learning Joint Decomposition and Synthesis for Video Relighting Kai He Ruofan Liang Jacob Munkberg J. Hasselgren Nandita Vijaykumar Alexander Keller Sanja Fidler Igor Gilitschenski Zan Gojcic Zian Wang 200 8 0 18 Jun 2025
Vid-CamEdit: Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry Junyoung Seo Jisang Han Jaewoo Jung Siyoon Jin Joungbin Lee ... Takashi Shibuya Donghoon Ahn Shoukang Hu Seungryong Kim Yuki Mitsufuji VGen 190 3 0 16 Jun 2025
STAGE: A Stream-Centric Generative World Model for Long-Horizon Driving-Scene Simulation Jiamin Wang Yichen Yao Xiang Feng Hang Wu Yaming Wang Qingqiu Huang Y. Ma Xinge Zhu VGen 248 3 0 16 Jun 2025
UltraVideo: High-Quality UHD Video Dataset with Comprehensive Captions Zhucun Xue Jiangning Zhang T. Hu Haoyang He Yinan Chen ... Yabiao Wang Chengjie Wang Yong-Jin Liu Xiangtai Li Dacheng Tao VGen 186 16 0 16 Jun 2025
EchoShot: Multi-Shot Portrait Video Generation Jiahao Wang Hualian Sheng Sijia Cai Weizhan Zhang Caixia Yan Yachuang Feng Bing Deng Jieping Ye DiffM VGen 155 6 0 16 Jun 2025
DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning Yifeng Gao Yifan Ding Hongyu Su Juncheng Li Yunhan Zhao ... Li Wang Xin Wang Yixu Wang Jiabo He Yu-Gang Jiang VGen 303 1 0 13 Jun 2025
Foundation Models in Autonomous Driving: A Survey on Scenario Generation and Scenario Analysis Yuan Gao Mattia Piccinini Yuchen Zhang Dingrui Wang Korbinian Moller ... Steven Peters Andrea Stocco Bassam Alrifaee Marco Pavone Johannes Betz 231 18 0 13 Jun 2025
Where and How to Perturb: On the Design of Perturbation Guidance in Diffusion and Flow Models Donghoon Ahn Jiwon Kang Sanghyun Lee Minjae Kim Jaewon Min Wooseok Jang Saungwu Lee Sayak Paul S. Hong Seungryong Kim DiffM AAML 403 1 0 12 Jun 2025
DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers Lizhen Wang Zhurong Xia T. Hu P. Wang Pengfei Wang Zerong Zheng Ming Zhou Yuan Zhang Mingyuan Gao DiffM VGen 392 8 0 12 Jun 2025
GenWorld: Towards Detecting AI-generated Real-world Simulation Videos Weiliang Chen Wenzhao Zheng Yu Zheng Lei Chen Jie Zhou Jiwen Lu Yueqi Duan VGen 280 3 0 12 Jun 2025
AniMaker: Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation Haoyuan Shi Yunxin Li Xinyu Chen Longyue Wang Baotian Hu Min Zhang DiffM VGen 314 0 0 12 Jun 2025
SPARKE: Scalable Prompt-Aware Diversity and Novelty Guidance in Diffusion Models via RKE Score Mohammad Jalali Haoyu Lei Amin Gohari Farzan Farnia DiffM 295 2 0 11 Jun 2025
Text-Aware Image Restoration with Diffusion Models Jaewon Min J. Kim Paul Hyunbin Cho J. Lee Jihye Park Minkyu Park S. Kim Hyunhee Park Seungryong Kim 266 1 0 11 Jun 2025
DGAE: Diffusion-Guided Autoencoder for Efficient Latent Representation Learning Dongxu Liu Yuang Peng Haomiao Tang Yuwei Chen Chunrui Han Zheng Ge Daxin Jiang Mingxue Liao DiffM 242 1 0 11 Jun 2025
Anomaly Detection and Generation with Diffusion Models: A Survey Zehua Wang Jing Liu Chengfang Li Rui Xi W. Li Liang Cao Jin Wang L. Yang Junsong Yuan Wei Zhou DiffM MedIm 219 3 0 11 Jun 2025
From Pixels to Graphs: using Scene and Knowledge Graphs for HD-EPIC VQA Challenge Agnese Taluzzi Davide Gesualdi Riccardo Santambrogio Chiara Plizzari Francesca Palermo S. Mentasti Matteo Matteucci GNN 258 1 0 10 Jun 2025
HunyuanVideo-HOMA: Generic Human-Object Interaction in Multimodal Driven Human Animation Ziyao Huang Zixiang Zhou Juan Cao Yifeng Ma Yi Chen ... Hongmei Wang Qin Lin Yuan Zhou Qinglin Lu Fan Tang VGen 183 4 0 10 Jun 2025
Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization Qilin Yin Wei Lu Xiangyang Luo Xiaochun Cao 167 0 0 10 Jun 2025