Title
Training-Free Text-Guided Image Editing with Visual Autoregressive Model Yufei Wang Lanqing Guo Zhihao Li Jiaxing Huang Pichao Wang Bihan Wen Jingchao Wang DiffM 261 7 0 31 Mar 2025
ORIGEN: Zero-Shot 3D Orientation Grounding in Text-to-Image Generation Yunhong Min Daehyeon Choi Kyeongmin Yeo Jihyun Lee Minhyuk Sung 409 1 0 28 Mar 2025
Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image SynthesisComputer Vision and Pattern Recognition (CVPR), 2025 Woojung Han Yeonkyung Lee Chanyoung Kim Kwanghyun Park Seong Jae Hwang DiffM 228 5 0 28 Mar 2025
Optimal Stepsize for Diffusion Sampling Jianning Pei Han Hu Shuyang Gu 207 3 0 27 Mar 2025
Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving Lucas Nunes Rodrigo Marcuzzi Jens Behley C. Stachniss 3DPC 275 3 0 27 Mar 2025
Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing Fan Qi Yu Duan Changsheng Xu DiffM 243 0 0 27 Mar 2025
InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model AlignmentComputer Vision and Pattern Recognition (CVPR), 2025 Yaojie Lu Qichao Wang H. Cao Xierui Wang Xiaoyin Xu Min Zhang 295 7 0 24 Mar 2025
OmnimatteZero: Fast Training-free Omnimatte with Pre-trained Video Diffusion Models Dvir Samuel Matan Levy N. Darshan Gal Chechik Rami Ben-Ari DiffM 280 0 0 23 Mar 2025
Efficient Personalization of Quantized Diffusion Model without BackpropagationComputer Vision and Pattern Recognition (CVPR), 2025 H. Seo Wongi Jeong Kyungryeol Lee Se Young Chun DiffM MQ 349 1 0 19 Mar 2025
CRCE: Coreference-Retention Concept Erasure in Text-to-Image Diffusion Models Yuyang Xue Edward Moroshko Feng Chen Jingyu Sun Steven McDonagh Sotirios A. Tsaftaris 391 3 0 18 Mar 2025
TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark Forouzan Fallah Maitreya Patel Agneet Chatterjee Vlad I. Morariu Chitta Baral Yezhou Yang CoGe 240 3 0 17 Mar 2025
DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models Dewei Zhou Mingwei Li Zongxin Yang Yi Yang 434 14 0 17 Mar 2025
RASA: Replace Anyone, Say Anything -- A Training-Free Framework for Audio-Driven and Universal Portrait Video Editing Tianrui Pan Lin Liu Jie Liu Xinsong Zhang J. Tang Gangshan Wu Q. Tian DiffM VGen 261 0 0 14 Mar 2025
Piece it Together: Part-Based Concepting with IP-Priors Elad Richardson Kfir Goldberg Yuval Alaluf Daniel Cohen-Or DiffM 206 3 0 13 Mar 2025
SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation Junsong Chen Shuchen Xue Yuyang Zhao Jincheng Yu Sayak Paul Junyu Chen Han Cai Enze Xie Enze Xie VLM 536 29 0 12 Mar 2025
MGHanD: Multi-modal Guidance for authentic Hand Diffusion Taehyeon Eum Jieun Choi Tae-Kyun Kim 219 1 0 11 Mar 2025
TimeStep Master: Asymmetrical Mixture of Timestep LoRA Experts for Versatile and Efficient Diffusion Models in Vision Shaobin Zhuang Yiwei Guo Yanbo Ding Kunchang Li Xinyuan Chen Yaohui Wang Fangyikang Wang Ying Zhang Chen Li Yijiao Wang 235 4 0 10 Mar 2025
FaceID-6M: A Large-Scale, Open-Source FaceID Customization Dataset Shuhe Wang Xiaoya Li Jiwei Li G. Wang Xiaofei Sun ... Han Qiu Mo Yu Shengjie Shen Tianwei Zhang Eduard H. Hovy VLM 397 4 0 10 Mar 2025
Fine-Grained Alignment and Noise Refinement for Compositional Text-to-Image Generation Amir Mohammad Izadi Seyed Mohammad Hadi Hosseini Soroush Vafaie Tabar Ali Abdollahi Armin Saghafian M. Baghshah EGVM 283 2 0 09 Mar 2025
X2I: Seamless Integration of Multimodal Understanding into Diffusion Transformer via Attention Distillation Jian Ma Qirong Peng Xu Guo Chen Chen H. Lu Zhenyu Yang VLM 501 5 0 08 Mar 2025
DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal CyclesComputer Vision and Pattern Recognition (CVPR), 2025 Rui Zhao Weijia Mao Mike Zheng Shou 258 4 0 05 Mar 2025
WeGen: A Unified Model for Interactive Multimodal Generation as We ChatComputer Vision and Pattern Recognition (CVPR), 2025 Zhipeng Huang Shaobin Zhuang Canmiao Fu Binxin Yang Ying Zhang Chong Sun Zhizheng Zhang Yali Wang Chen Li Zheng-Jun Zha DiffM 361 4 0 03 Mar 2025
Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator Kaiwen Zheng Yongxin Chen Huayu Chen Guande He Xuan Li Jun Zhu Qinsheng Zhang DiffM 532 11 0 03 Mar 2025
MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual RepresentationsComputer Vision and Pattern Recognition (CVPR), 2025 Ziyang Zhang Yang Yu Yucheng Chen Xulei Yang S. Yeo MedIm 480 9 0 02 Mar 2025
FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less ComputeComputer Vision and Pattern Recognition (CVPR), 2025 Sotiris Anagnostidis Gregor Bachmann Yeongmin Kim Jonas Kohler Markos Georgopoulos A. Sanakoyeu Yuming Du Albert Pumarola Ali K. Thabet Edgar Schönfeld 319 3 0 27 Feb 2025
Human2Robot: Learning Robot Actions from Paired Human-Robot Videos Sicheng Xie Haidong Cao Zejia Weng Zhen Xing Shiwei Shen Shiwei Shen Jiaqi Leng Yanwei Fu Zuxuan Wu 399 9 0 23 Feb 2025
PersGuard: Preventing Malicious Personalization via Backdoor Attacks on Pre-trained Text-to-Image Diffusion Models Xinwei Liu Xiaojun Jia Yuan Xun Qichuan Geng Simeng Qin DiffM AAML 239 1 0 22 Feb 2025
SMITE: Segment Me In TimEInternational Conference on Learning Representations (ICLR), 2024 Amirhossein Alimohammadi Sauradip Nag Saeid Asgari Taghanaki Andrea Tagliasacchi Ghassan Hamarneh Ali Mahdavi-Amiri VLM VOS 938 7 0 20 Feb 2025
Accelerating Diffusion Transformers with Token-wise Feature CachingInternational Conference on Learning Representations (ICLR), 2024 Chang Zou Xuyang Liu Ting Liu Siteng Huang Linfeng Zhang 363 56 0 20 Feb 2025
High-Quality 3D Creation from A Single Image Using Subject-Specific Knowledge PriorIEEE International Conference on Robotics and Automation (ICRA), 2023 Nan Huang Ting Zhang Yuhui Yuan Dong Chen Shanghang Zhang DiffM 221 6 0 20 Feb 2025
PromptArtisan: Multi-instruction Image Editing in Single Pass with Complete Attention ControlIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025 Kunal Swami Raghu Chittersu Pranav Adlinge Rajeev Irny Shashavali Doodekula Alok Shukla 101 0 0 17 Feb 2025
Transfer Your Perspective: Controllable 3D Generation from Any Viewpoint in a Driving SceneComputer Vision and Pattern Recognition (CVPR), 2025 Tai-Yu Pan Sooyoung Jeon Mengdi Fan Jinsu Yoo Zhenyang Feng Mark E. Campbell Kilian Q. Weinberger Bharath Hariharan Wei-Lun Chao 542 2 0 10 Feb 2025
FreeBlend: Advancing Concept Blending with Staged Feedback-Driven Interpolation Diffusion Yufan Zhou Haoyu Shen Huan Wang DiffM 607 6 0 08 Feb 2025
Video Latent Flow Matching: Optimal Polynomial Projections for Video Interpolation and Extrapolation Yang Cao Zhao Song Chiwun Yang VGen 467 11 0 01 Feb 2025
SQ-DM: Accelerating Diffusion Models with Aggressive Quantization and Temporal SparsityDesign Automation Conference (DAC), 2025 Zichen Fan Steve Dai Rangharajan Venkatesan Dennis Sylvester Brucek Khailany MQ 278 1 0 28 Jan 2025
Turn That Frown Upside Down: FaceID Customization via Cross-Training Data Shuhe Wang Xiaoya Li Xiaofei Sun G. Wang Minlie Huang Jiwei Li Eduard H. Hovy 250 1 0 28 Jan 2025
PreciseCam: Precise Camera Control for Text-to-Image GenerationComputer Vision and Pattern Recognition (CVPR), 2025 Edurne Bernal-Berdun Ana Serrano B. Masiá Matheus Gadelha Yannick Hold-Geoffroy Xin Sun Diego F. F. Gutierrez DiffM VGen 187 9 0 22 Jan 2025
Isolated Diffusion: Optimizing Multi-Concept Text-to-Image Generation Training-Freely with Isolated Diffusion GuidanceIEEE Transactions on Visualization and Computer Graphics (TVCG), 2024 Jin Zhu Huimin Ma Jiansheng Chen Jian Yuan 358 5 0 20 Jan 2025
SynthLight: Portrait Relighting with Diffusion Model by Learning to Re-render Synthetic FacesComputer Vision and Pattern Recognition (CVPR), 2025 Sumit Chaturvedi Mengwei Ren Yannick Hold-Geoffroy Jingyuan Liu Julie Dorsey Zhixin Shu DiffM 177 11 0 17 Jan 2025
Beyond Flat Text: Dual Self-inherited Guidance for Visual Text Generation Minxing Luo Zixun Xia L. Chen Zhenhang Li Weichao Zeng Jinqiao Wang Wentao Cheng Yaxing Wang Yu Zhou Jian Yang DiffM 269 1 0 10 Jan 2025
Enhancing Virtual Try-On with Synthetic Pairs and Error-Aware Noise SchedulingComputer Vision and Pattern Recognition (CVPR), 2025 Nannan Li Kevin J. Shih Bryan A. Plummer DiffM 408 0 0 08 Jan 2025
CorrFill: Enhancing Faithfulness in Reference-based Inpainting with Correspondence Guidance in Diffusion ModelsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2025 Kuan-Hung Liu Cheng-Kun Yang Min-Hung Chen Yu-Lun Liu Y. Lin DiffM 265 5 0 04 Jan 2025
Exploring Structured Semantic Priors Underlying Diffusion Score for Test-time AdaptationNeural Information Processing Systems (NeurIPS), 2025 Mingjia Li Shuang Li Tongrui Su Longhui Yuan Jian Liang Wei Li DiffM 242 1 0 03 Jan 2025
ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving Jiehui Huang Xiao Dong Wenhui Song Zheng Chong Zhiqiang Zhang ... Long Chen Hanhui Li Yiqiang Yan Shengcai Liao Xiaodan Liang DiffM 210 35 0 31 Dec 2024
Grid Diffusion Models for Text-to-Video GenerationComputer Vision and Pattern Recognition (CVPR), 2024 Taegyeong Lee Soyeong Kwon Taehwan Kim 270 19 0 31 Dec 2024
AdaEAGLE: Optimizing Speculative Decoding via Explicit Modeling of Adaptive Draft Structures Situo Zhang Hankun Wang Da Ma Zichen Zhu Lu Chen Kunyao Lan Kai Yu 234 22 0 25 Dec 2024
Enhancing Long Video Generation Consistency without Tuning Xingyao Li Fengzhuo Zhang Jiachun Pan Yunlong Hou Vincent Y. F. Tan Zhuoran Yang DiffM VGen 298 0 0 23 Dec 2024
DreamOmni: Unified Image Generation and EditingComputer Vision and Pattern Recognition (CVPR), 2024 Bin Xia Yuechen Zhang Jingyao Li Chengyao Wang Yitong Wang Xinglong Wu Bei Yu Jiaya Jia SyDa MLLM 309 15 0 22 Dec 2024
AsymRnR: Video Diffusion Transformers Acceleration with Asymmetric Reduction and Restoration Wenhao Sun Rong-Cheng Tu Jingyi Liao Zhao Jin Dacheng Tao VGen 628 2 0 16 Dec 2024
Remix-DiT: Mixing Diffusion Transformers for Multi-Expert DenoisingNeural Information Processing Systems (NeurIPS), 2024 Gongfan Fang Xinyin Ma Xinchao Wang DiffM MoE 310 3 0 07 Dec 2024