Title
$M$^{3}$T2IBench: A Large-Scale Multi-Category, Multi-Instance, Multi-Relation Text-to-Image Benchmark$ M $^{3}$ T2IBench: A Large-Scale Multi-Category, Multi-Instance, Multi-Relation Text-to-Image Benchmark Huixuan Zhang Xiaojun Wan VLM 238 0 0 27 Oct 2025
RareFlow: Physics-Aware Flow-Matching for Cross-Sensor Super-Resolution of Rare-Earth Features Forouzan Fallah Wenwen Li Chia-Yu Hsu Hyunho Lee Yezhou Yang 270 0 0 27 Oct 2025
FreeFuse: Multi-Subject LoRA Fusion via Auto Masking at Test Time Yaoli Liu Yao-Xiang Ding Kun Zhou 168 0 0 27 Oct 2025
RoboSVG: A Unified Framework for Interactive SVG Generation with Multi-modal Guidance Jiuniu Wang Gongjie Zhang Quanhao Qian Junlong Gao Deli Zhao Ran Xu 113 1 0 26 Oct 2025
T2I-RiskyPrompt: A Benchmark for Safety Evaluation, Attack, and Defense on Text-to-Image Model Chenyu Zhang Tairen Zhang Lanjun Wang Ruidong Chen Wenhui Li Anan Liu EGVM 214 0 0 25 Oct 2025
GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping Jing Wang Jiajun Liang Jie Liu Henglin Liu Gongye Liu ... Zhenyu Xie Xintao Wang Meng Wang Pengfei Wan Xiaodan Liang 132 1 0 25 Oct 2025
Restore Text First, Enhance Image Later: Two-Stage Scene Text Image Super-Resolution with Glyph Structure Guidance Minxing Luo Linlong Fan Wang Qiushi Ge Wu Yiyan Luo Yuhang Yu Jinwei Chen Y. Wang Qingnan Fan Jian Yang 172 1 0 24 Oct 2025
TerraGen: A Unified Multi-Task Layout Generation Framework for Remote Sensing Data Augmentation Datao Tang Hao Wang Yudeng Xin Hui Qiao Dongsheng Jiang Yin Li Zhiheng Yu Xiangyong Cao 102 1 0 24 Oct 2025
Blockwise Flow Matching: Improving Flow Matching Models For Efficient High-Quality Generation Dogyun Park Taehoon Lee Minseok Joo Hyunwoo J. Kim 110 0 0 24 Oct 2025
BachVid: Training-Free Video Generation with Consistent Background and Character Han Yan Xibin Song Yifu Wang Hongdong Li Pan Ji Chao Ma DiffM VGen 108 0 0 24 Oct 2025
Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation Yifu Luo Penghui Du Bo Li Sinan Du Tiantian Zhang Yongzhe Chang Kai Wu Kun Gai Xueqian Wang 124 3 0 24 Oct 2025
FlowOpt: Fast Optimization Through Whole Flow Processes for Training-Free Editing Or Ronai Vladimir Kulikov T. Michaeli 120 1 0 24 Oct 2025
ArtiLatent: Realistic Articulated 3D Object Generation via Structured Latents Honghua Chen Yushi Lan Yongwei Chen Xingang Pan 68 1 0 24 Oct 2025
AlphaFlow: Understanding and Improving MeanFlow Models Huijie Zhang Aliaksandr Siarohin Willi Menapace Michael Vasilkovsky Sergey Tulyakov Qing Qu Ivan Skorokhodov AI4CE 104 8 0 23 Oct 2025
Generative Point Tracking with Flow Matching Mattie Tesfaldet Adam W. Harley Konstantinos G. Derpanis Derek Nowrouzezahrai C. Pal 124 0 0 23 Oct 2025
DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion Noam Issachar Guy Yariv Sagie Benaim Yossi Adi Dani Lischinski Raanan Fattal 120 1 0 23 Oct 2025
Target-aware Image Editing via Cycle-consistent Constraints Yanghao Wang Zhen Wang Long Chen 144 0 0 23 Oct 2025
UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset Chen Zhao En Ci Yunzhe Xu Tiehan Fan Shanyan Guan Yanhao Ge Jian Yang Ying Tai 148 7 0 23 Oct 2025
HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives Yihao Meng Hao Ouyang Yue Yu Qiuyu Wang Wen Wang ... Yixuan Li Cheng Chen Yanhong Zeng Yujun Shen Huamin Qu VGen 108 6 0 23 Oct 2025
Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets Jiashi Feng Xiu Li Jing Lin Jiahang Liu Gaohong Liu ... S. S. Wang Qianyi Wu Fan Yang J. Zhang Xuanmeng Zhang VGen 111 2 0 22 Oct 2025
A Survey on Cache Methods in Diffusion Models: Toward Efficient Multi-Modal Generation Jiacheng Liu Xinyu Wang Yuqi Lin Zhikai Wang P. Wang ... Zexuan Yan Zhengyi Shi Chang Zou Yue Ma Linfeng Zhang 351 2 0 22 Oct 2025
DP $^2$ O-SR: Direct Perceptual Preference Optimization for Real-World Image Super-Resolution Rongyuan Wu Lingchen Sun Zhengqiang Zhang Shihao Wang Tianhe Wu Qiaosi Yi Shuai Li Lei Zhang 168 0 0 21 Oct 2025
UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation Yibin Wang Zhimin Li Yuhang Zang Jiazi Bu Yujie Zhou ... Junjun He Chunyu Wang Qinglin Lu Cheng Jin J. Wang EGVM VLM 225 4 0 21 Oct 2025
MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation Weinan Jia Yuning Lu Mengqi Huang Hualiang Wang Binyuan Huang Nan Chen Mu Liu Jidong Jiang Zhendong Mao VGen VLM 100 2 0 21 Oct 2025
Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model Zhenxing Zhang Jiayan Teng Zhuoyi Yang Tiankun Cao C. Wang Xiaohan Zhang J. Tang Dan Guo Meng Wang VGen 74 0 0 21 Oct 2025
Fine-tuning Flow Matching Generative Models with Intermediate Feedback Jiajun Fan Chaoran Cheng Shuaike Shen Xiangxin Zhou Ge Liu EGVM 148 1 0 20 Oct 2025
MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models Yongshun Zhang Zhongyi Fan Yonghang Zhang Zhangzikang Li Weifeng Chen Zhongwei Feng Chaoyue Wang Peng Hou Anxiang Zeng VGen 263 0 0 20 Oct 2025
UniRL-Zero: Reinforcement Learning on Unified Models with Joint Language Model and Diffusion Model Experts Fu-Yun Wang Han Zhang Michael Gharbi Hongsheng Li Taesung Park 130 0 0 20 Oct 2025
GAS: Improving Discretization of Diffusion ODEs via Generalized Adversarial Solver Aleksandr Oganov Ilya Bykov Eva Neudachina Mishan Aliev Alexander Tolmachev Alexander Sidorov Aleksandr Zuev Andrey Okhotin Denis Rakitin Aibek Alanov 145 0 0 20 Oct 2025
Demystifying Transition Matching: When and Why It Can Beat Flow Matching Jaihoon Kim Rajarshi Saha Minhyuk Sung Youngsuk Park 113 0 0 20 Oct 2025
ConsistEdit: Highly Consistent and Precise Training-free Visual Editing Zixin Yin Ling-Hao Chen Lionel M. Ni Xili Dai 128 0 0 20 Oct 2025
Latent Discrete Diffusion Models Dario Shariatian Alain Durmus Stefano Peluchetti DiffM 230 0 0 20 Oct 2025
Adaptive Divergence Regularized Policy Optimization for Fine-tuning Generative Models Jiajun Fan Tong Wei Chaoran Cheng Yuxin Chen Ge Liu 80 1 0 20 Oct 2025
Personalized Image Filter: Mastering Your Photographic Style Chengxuan Zhu Shuchen Weng Jiacong Fang Peixuan Zhang Si Li Chao Xu Boxin Shi DiffM 148 0 0 19 Oct 2025
DiffusionX: Efficient Edge-Cloud Collaborative Image Generation with Multi-Round Prompt Evolution Yi Wei Shunpu Tang Liang Zhao Qiangian Yang 64 0 0 18 Oct 2025
ReCon: Region-Controllable Data Augmentation with Rectification and Alignment for Object Detection Haowei Zhu Tianxiang Pan Rui Qin Jun-Hai Yong Bin Wang DiffM 152 0 0 17 Oct 2025
Latent Diffusion Model without Variational Autoencoder Minglei Shi Haolin Wang Wenzhao Zheng Ziyang Yuan X. Wu Xintao Wang Pengfei Wan Jie Zhou Jiwen Lu 303 14 0 17 Oct 2025
Salient Concept-Aware Generative Data Augmentation Tianchen Zhao Xuanbai Chen Zhihua Li J. Fang Dongsheng An Xiang Xu Zhuowen Tu Yifan Xing DiffM 192 0 0 16 Oct 2025
DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation Yu Zhou Sohyun An Haikang Deng Da Yin Clark Peng Cho-Jui Hsieh Kai-Wei Chang Nanyun Peng VLM 132 1 0 16 Oct 2025
ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention Keli Liu Zhendong Wang Wengang Zhou Shaodong Xu Ruixiao Dong Houqiang Li DiffM 136 0 0 16 Oct 2025
Adapting Self-Supervised Representations as a Latent Space for Efficient Generation Ming Gui Johannes Schusterbauer Timy Phan Felix Krause J. Susskind Miguel Angel Bautista Bjorn Ommer 189 1 0 16 Oct 2025
NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks Junliang Ye Shenghao Xie R. Zhao Zhengyi Wang Hongyu Yan Wenqiang Zu Lei Ma Jun Zhu DiffM 178 2 0 16 Oct 2025
AlignFlow: Improving Flow-based Generative Models with Semi-Discrete Optimal Transport Lingkai Kong Molei Tao Yang Liu Bryan Wang Jinmiao Fu Chien Wang Huidong Liu OT 239 0 0 16 Oct 2025
Exploring Cross-Modal Flows for Few-Shot Learning Ziqi Jiang Yanghao Wang Long Chen 158 0 0 16 Oct 2025
pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation Hansheng Chen Kai Zhang Hao Tan Leonidas Guibas Gordon Wetzstein Sai Bi 224 5 0 16 Oct 2025
Shortcutting Pre-trained Flow Matching Diffusion Models is Almost Free Lunch Xu Cai Yang Wu Qianli Chen Haoran Wu Lichuan Xiang Hongkai Wen 104 0 0 15 Oct 2025
End-to-End Multi-Modal Diffusion Mamba Chunhao Lu Qiang Lu Meichen Dong Jake Luo 122 3 0 15 Oct 2025
UniCalli: A Unified Diffusion Framework for Column-Level Generation and Recognition of Chinese Calligraphy Tianshuo Xu Kai Wang Zhifei Chen Leyi Wu Tianshui Wen Fei Chao Ying-Cong Chen DiffM 64 0 0 15 Oct 2025
CanvasMAR: Improving Masked Autoregressive Video Generation With Canvas Zian Li Muhan Zhang DiffM VGen 130 0 0 15 Oct 2025
SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models Weiyang Jin Yuwei Niu Jiaqi Liao Chengqi Duan Aoxue Li Shenghua Gao Xihui Liu LRM 184 4 0 14 Oct 2025