Title
Align Your Query: Representation Alignment for Multimodality Medical Object Detection Ara Seo Bryan S Kim Hyungjin Chung Jong Chul Ye 88 0 0 03 Oct 2025
OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit Flows John Nguyen Marton Havasi Tariq Berrada Luke Zettlemoyer Ricky T. Q. Chen 181 4 0 03 Oct 2025
SALSA-V: Shortcut-Augmented Long-form Synchronized Audio from Videos Amir Dellali Luca A. Lanzendörfer Florian Grötschla Roger Wattenhofer VGen 92 0 0 03 Oct 2025
Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity Eric Tillmann Bill Enis Simsar Thomas Hofmann DiffM 325 0 0 02 Oct 2025
PEO: Training-Free Aesthetic Quality Enhancement in Pre-Trained Text-to-Image Diffusion Models with Prompt Embedding Optimization Hovhannes Margaryan Bo Wan Tinne Tuytelaars 260 0 0 02 Oct 2025
DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing Zihan Zhou Shilin Lu Shuli Leng Shaocong Zhang Zhuming Lian Xinlei Yu A. Kong DiffM 219 7 0 02 Oct 2025
Fine-Grained GRPO for Precise Preference Alignment in Flow Models Yujie Zhou Pengyang Ling Jiazi Bu Yibin Wang Yuhang Zang Jiaqi Wang Li Niu Guangtao Zhai DiffM 185 3 0 02 Oct 2025
Growing Visual Generative Capacity for Pre-Trained MLLMs Hanyu Wang Jiaming Han Ziyan Yang Qi Zhao Shanchuan Lin Xiangyu Yue Abhinav Shrivastava Zhenheng Yang Hao Chen VLM 155 0 0 02 Oct 2025
Purrception: Variational Flow Matching for Vector-Quantized Image Generation Răzvan-Andrei Matişan Vincent Tao Hu Grigory Bartosh Bjorn Ommer Cees G. M. Snoek Max Welling Jan-Willem van de Meent Mohammad Mahdi Derakhshani Floor Eijkelboom 112 1 0 01 Oct 2025
ImageDoctor: Diagnosing Text-to-Image Generation via Grounded Image Reasoning Yuxiang Guo Jiang Liu Ze Wang Hao Chen Ximeng Sun Yang Zhao Jialian Wu Xiaodong Yu Zicheng Liu Emad Barsoum LM&MA 106 0 0 01 Oct 2025
UCD: Unconditional Discriminator Promotes Nash Equilibrium in GANs Mengfei Xia Nan Xue Jiapeng Zhu Yujun Shen 104 0 0 01 Oct 2025
InfVSR: Breaking Length Limits of Generic Video Super-Resolution Ziqing Zhang Kai Liu Zheng Chen X. Li Yihao Chen Bingnan Duan Linghe Kong Yulun Zhang 137 1 0 01 Oct 2025
Erased, But Not Forgotten: Erased Rectified Flow Transformers Still Remain Unsafe Under Concept Attack Nanxiang Jiang Zhaoxin Fan Enhan Kang Daiheng Gao Yun Zhou Yanxia Chang Zheng Zhu Yeying Jin Wenjun Wu AAML 132 0 0 01 Oct 2025
Riemannian Consistency Model Chaoran Cheng Yusong Wang Yuxin Chen Xiangxin Zhou Nanning Zheng Ge Liu 205 0 0 01 Oct 2025
Flow Autoencoders are Effective Protein Tokenizers Rohit Dilip Evan Zhang Ayush Varshney David Van Valen DiffM 96 0 0 30 Sep 2025
Query-Kontext: An Unified Multimodal Model for Image Generation and Editing Yuxin Song Wenkai Dong Shizun Wang Qi Zhang Song Xue ... H. Yang Haocheng Feng Hang Zhou Xinyan Xiao Jingdong Wang DiffM MLLM 149 2 0 30 Sep 2025
Training-Free Reward-Guided Image Editing via Trajectory Optimal Control J. Chang Jaemin Kim Jong Chul Ye 135 0 0 30 Sep 2025
PatchVSR: Breaking Video Diffusion Resolution Limits with Patch-wise Video Super-ResolutionComputer Vision and Pattern Recognition (CVPR), 2025 S. Du Menghan Xia Chang Liu Xintao Wang Jing Wang Pengfei Wan Di Zhang Xiangyang Ji DiffM SupR VGen 239 3 0 30 Sep 2025
OmniDFA: A Unified Framework for Open Set Synthesis Image Detection and Few-Shot Attribution Shiyu Wu Shuyan Li Jing Li Jing Liu Yequan Wang 124 0 0 30 Sep 2025
EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model Ruixiao Dong Z. Wang Keli Liu Li Li Ying Chen Kai Li Daowen Li Houqiang Li DiffM VGen 110 0 0 30 Sep 2025
Stitch: Training-Free Position Control in Multimodal Diffusion Transformers Jessica Bader Mateusz Pach Maria A. Bravo Serge Belongie Zeynep Akata 124 1 0 30 Sep 2025
Revoking Amnesia: RL-based Trajectory Optimization to Resurrect Erased Concepts in Diffusion Models Daiheng Gao Nanxiang Jiang Andi Zhang Shilin Lu Yufei Tang Wenbo Zhou Weiming Zhang Zhaoxin Fan 112 4 0 30 Sep 2025
Editable Noise Map Inversion: Encoding Target-image into Noise For High-Fidelity Image Manipulation Mingyu Kang Yong Suk Choi DiffM 159 0 0 30 Sep 2025
LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models Guolei Huang Qingzhi Peng Gan Xu Yuxuan Lu Yongjun Shen 108 0 0 30 Sep 2025
Personalized Vision via Visual In-Context Learning Yuxin Jiang Yuchao Gu Yiren Song Ivor Tsang Mike Zheng Shou VLM 142 9 0 29 Sep 2025
SDPose: Exploiting Diffusion Priors for Out-of-Domain and Robust Pose Estimation Shuang Liang Jing He Chuanmeizhi Wang Lejun Liao Guo Zhang Yingcong Chen Yuan Yuan DiffM 124 0 0 29 Sep 2025
DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space Wenkun He Yuchao Gu Junyu Chen Dongyun Zou Yujun Lin ... Jincheng Yu Junsong Chen Enze Xie Song Han Han Cai 181 2 0 29 Sep 2025
Video Generation with Stable Transparency via Shiftable RGB-A Distribution Learner Haotian Dong Wenjing Wang Chen Li Di Lin Di Lin DiffM VGen 183 1 0 29 Sep 2025
GLASS Flows: Transition Sampling for Alignment of Flow and Diffusion Models Peter Holderrieth Uriel Singer Tommi Jaakkola Ricky T. Q. Chen Y. Lipman Brian Karrer DiffM 116 0 0 29 Sep 2025
FlashOmni: A Unified Sparse Attention Engine for Diffusion Transformers Liang Qiao Yue Dai Y. Huang Hongyu Kan Jun Shi Hong An 104 0 0 29 Sep 2025
Score Distillation of Flow Matching Models Mingyuan Zhou Yi Gu Huangjie Zheng Liangchen Song Guande He Y. Zhang Wenze Hu Yinfei Yang DiffM 145 0 0 29 Sep 2025
Advantage Weighted Matching: Aligning RL with Pretraining in Diffusion Models Shuchen Xue Chongjian Ge Shilong Zhang Yichen Li Zhi-Ming Ma 119 2 0 29 Sep 2025
An Efficient 3D Latent Diffusion Model for T1-contrast Enhanced MRI Generation Zach Eidex Mojtaba Safari Jie Ding Richard L. J. Qiu J. Roper D. Yu Hui-Kuo Shu Zhen Tian H. Mao Xiaofeng Yang DiffM MedIm 121 0 0 29 Sep 2025
UniVid: The Open-Source Unified Video Model Jiabin Luo Junhui Lin Zeyu Zhang Biao Wu Meng Fang Ling-Hao Chen Hao Tang VGen 234 6 0 29 Sep 2025
Training Agents Inside of Scalable World Models Danijar Hafner Wilson Yan Timothy Lillicrap VGen 139 16 0 29 Sep 2025
Token Painter: Training-Free Text-Guided Image Inpainting via Mask Autoregressive Models Longtao Jiang Mingfei Han Lei Chen Yongqiang Yu Feng Zhao Feng Zhao Xiaojun Chang Zhihui Li DiffM 104 0 0 28 Sep 2025
FlowLUT: Efficient Image Enhancement via Differentiable LUTs and Iterative Flow Matching Liubing Hu Chen Wu Anrui Wang Dianjie Lu Guijuan Zhang Zhuoran Zheng 104 0 0 28 Sep 2025
HunyuanImage 3.0 Technical Report S. Cao Huajun Chen Peng Chen Yiji Cheng Yutao Cui ... Penghao Zhao Zhiyuan Zhao Xuefei Zhe Jianchen Zhu Zhao Zhong MLLM VGen 177 21 0 28 Sep 2025
Flow Matching for Robust Simulation-Based Inference under Model Misspecification Pierre-Louis Ruhlmann Pedro L. C. Rodrigues Michael Arbel Florence Forbes 295 1 0 27 Sep 2025
Beyond the Prompt: Gender Bias in Text-to-Image Models, with a Case Study on Hospital Professions Franck Vandewiele Remi Synave Samuel Delepoulle Remi Cozot DiffM MedIm 78 0 0 27 Sep 2025
Follow-Your-Preference: Towards Preference-Aligned Image Inpainting Yutao Shen Junkun Yuan Toru Aonishi Hideki Nakayama Yue Ma EGVM 148 3 0 27 Sep 2025
LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer Song Fei Tian Ye Lujia Wang Lei Zhu 148 0 0 26 Sep 2025
Group Critical-token Policy Optimization for Autoregressive Image Generation Guohui Zhang Hu Yu Xiaoxiao Ma Jinghao Zhang Yaning Pan Mingde Yao Jie Xiao Linjiang Huang Feng Zhao 124 0 0 26 Sep 2025
Discrete Guidance Matching: Exact Guidance for Discrete Flow Matching Zhengyan Wan Yidong Ouyang Liyan Xie Fang Fang Hongyuan Zha Guang Cheng 112 0 0 26 Sep 2025
REFINE-CONTROL: A Semi-supervised Distillation Method For Conditional Image Generation Yicheng Jiang Jin Yuan Hua Yuan Yao Zhang Yong Rui DiffM 125 0 0 26 Sep 2025
Universal Multi-Domain Translation via Diffusion Routers Duc Kieu Kien Do Tuan Hoang T. Le Tung Kieu D. Nguyen T. Nguyen 108 0 0 26 Sep 2025
Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation Abdelrahman Eldesokey Aleksandar Cvejic Bernard Ghanem Peter Wonka 100 0 0 26 Sep 2025
MultiCrafter: High-Fidelity Multi-Subject Generation via Disentangled Attention and Identity-Aware Preference Alignment Tao Wu Yibo Jiang Yehao Lu Zhizhong Wang Longxiang Zhang Zequn Qin Xi Li 148 1 0 26 Sep 2025
MILR: Improving Multimodal Image Generation via Test-Time Latent Reasoning Yapeng Mi Hengli Li Yanpeng Zhao Chenxi Li Huimin Wu Xiaojian Ma Song-Chun Zhu Ying Nian Wu Qing Li LRM VLM 1.3K 2 0 26 Sep 2025
RAPID^3: Tri-Level Reinforced Acceleration Policies for Diffusion Transformer Wangbo Zhao Yizeng Han Zhiwei Tang Jiasheng Tang Pengfei Zhou Kai Wang Bohan Zhuang Zinan Lin Fan Wang Yang You 140 1 0 26 Sep 2025