SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

4 July 2023

Papers citing "SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis"

50 / 1,616 papers shown

Title
QDM: Quadtree-Based Region-Adaptive Sparse Diffusion Models for Efficient Image Super-Resolution Donglin Yang Paul Vicol Xiaojuan Qi Renjie Liao X. Zhang 34 0 0 15 Mar 2025
Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection Shufan Li Konstantinos Kallidromitis Akash Gokul Arsh Koneru Yusuke Kato Kazuki Kozuka Aditya Grover VLM 56 1 0 15 Mar 2025
Tailor: An Integrated Text-Driven CG-Ready Human and Garment Generation System Zhiyao Sun Yu-Hui Wen M. Lin Ho-Jui Fang Sheng Ye Tian Lv Y. Liu 80 0 0 15 Mar 2025
LUSD: Localized Update Score Distillation for Text-Guided Image Editing Worameth Chinchuthakun Tossaporn Saengja Nontawat Tritrong Pitchaporn Rewatbowornwong Pramook Khungurn Supasorn Suwajanakorn DiffM 46 0 0 14 Mar 2025
Upcycling Text-to-Image Diffusion Models for Multi-Task Capabilities Ruchika Chavhan Abhinav Mehrotra Malcolm Chadwick Alberto Gil C. P. Ramos Luca Morreale Mehdi Noroozi Sourav Bhattacharya 44 0 0 14 Mar 2025
EmoAgent: Multi-Agent Collaboration of Plan, Edit, and Critic, for Affective Image Manipulation Qi Mao Haobo Hu Yujie He Difei Gao Haokun Chen Libiao Jin DiffM 45 0 0 14 Mar 2025
Provenance Detection for AI-Generated Images: Combining Perceptual Hashing, Homomorphic Encryption, and AI Detection Models Shree Singhi Aayan Yadav Aayush Gupta Shariar Ebrahimi Parisa Hassanizadeh 36 0 0 14 Mar 2025
Safe-VAR: Safe Visual Autoregressive Model for Text-to-Image Generative Watermarking Ziyi Wang Songbai Tan Gang Xu Xuerui Qiu Hongbin Xu Xin Meng Ming Li Fei Richard Yu WIGM 61 0 0 14 Mar 2025
Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models Hao-Ran Cheng Erjia Xiao Yichi Wang Kaidi Xu Mengshu Sun Jindong Gu Renjing Xu 36 0 0 14 Mar 2025
Piece it Together: Part-Based Concepting with IP-Priors Elad Richardson Kfir Goldberg Yuval Alaluf Daniel Cohen-Or DiffM 61 0 0 13 Mar 2025
Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation Qi Lv Hao Li Xiang Deng Rui Shao Yinchuan Li Jianye Hao Longxiang Gao Michael Yu Wang Liqiang Nie 41 0 0 13 Mar 2025
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing Rongyao Fang Chengqi Duan Kun Wang Linjiang Huang Hao Li ... Xingyu Zeng R. Zhao Jifeng Dai Xihui Liu Hongsheng Li MLLM ReLM LRM 104 5 0 13 Mar 2025
RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models Yijing Lin Mengqi Huang Shuhan Zhuang Zhendong Mao VGen 43 0 0 13 Mar 2025
Learning Few-Step Diffusion Models by Trajectory Distribution Matching Yihong Luo Tianyang Hu Jiacheng Sun Yujun Cai Jing Tang DiffM 80 1 0 13 Mar 2025
Proxy-Tuning: Tailoring Multimodal Autoregressive Models for Subject-Driven Image Generation Yi Wu Lingting Zhu Lei Liu Wandi Qiao Ziqiang Li Lequan Yu Bin Li DiffM 47 0 0 13 Mar 2025
Efficient Fine-Tuning and Concept Suppression for Pruned Diffusion Models Reza Shirkavand Peiran Yu Shangqian Gao Gowthami Somepalli Tom Goldstein Heng-Chiao Huang 113 1 0 13 Mar 2025
Channel-wise Noise Scheduled Diffusion for Inverse Rendering in Indoor Scenes JunYong Choi M. Sagong SeokYeong Lee Seung-Won Jung Ig-Jae Kim Junghyun Cho DiffM 48 0 0 13 Mar 2025
Fine-Tuning Diffusion Generative Models via Rich Preference Optimization Hanyang Zhao Haoxian Chen Yucheng Guo Genta Indra Winata Tingting Ou Ziyu Huang D. Yao Wenpin Tang 54 0 0 13 Mar 2025
ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer Bolin Chen Baoquan Zhao H. Xie Yi Cai Qing Li Xudong Mao DiffM 51 0 0 13 Mar 2025
Distilling Diversity and Control in Diffusion Models Rohit Gandikota David Bau 48 1 0 13 Mar 2025
MoEdit: On Learning Quantity Perception for Multi-object Image Editing Yanfeng Li Kahou Chan Yue Sun C. Lam Tong Tong Zitong Yu Keren Fu Xiaohong Liu Tao Tan DiffM 36 0 0 13 Mar 2025
DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation Chen Chen Rui Qian Wenze Hu Tsu-jui Fu Jialing Tong ... Lezhi Li Bowen Zhang A. Schwing Wei Liu Y. Yang 50 0 0 13 Mar 2025
ExtremeAIGC: Benchmarking LMM Vulnerability to AI-Generated Extremist Content Bhavik Chandna Mariam Aboujenane Usman Naseem 60 0 0 13 Mar 2025
FlowTok: Flowing Seamlessly Across Text and Image Tokens Ju He Qihang Yu Qihao Liu Liang-Chieh Chen 66 0 0 13 Mar 2025
Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark Viktor Moskvoretskii Alina Lobanova Ekaterina Neminova Chris Biemann Alexander Panchenko Irina Nikishina 41 0 0 13 Mar 2025
ConceptGuard: Continual Personalized Text-to-Image Generation with Forgetting and Confusion Mitigation Zirun Guo Tao Jin DiffM 40 0 0 13 Mar 2025
DreamInsert: Zero-Shot Image-to-Video Object Insertion from A Single Image Qi Zhao Zhan Ma Pan Zhou VGen 67 0 0 13 Mar 2025
Adding Additional Control to One-Step Diffusion with Joint Distribution Matching Yihong Luo Tianyang Hu Yifan Song Jiacheng Sun Z. Li Jing Tang DiffM 73 1 0 13 Mar 2025
Investigating and Improving Counter-Stereotypical Action Relation in Text-to-Image Diffusion Models Sina Malakouti Adriana Kovashka EGVM 67 0 0 13 Mar 2025
Neighboring Autoregressive Modeling for Efficient Visual Generation Yefei He Yuanyu He Shaoxuan He Feng Chen Hong Zhou K. Zhang Bohan Zhuang 51 1 0 12 Mar 2025
Accelerating Diffusion Sampling via Exploiting Local Transition Coherence Shangwen Zhu Han Zhang Zhantao Yang Qianyu Peng Zhao Pu H. Wang Fan Cheng DiffM 48 0 0 12 Mar 2025
HaploVL: A Single-Transformer Baseline for Multi-Modal Understanding Rui Yang Lin Song Yicheng Xiao Runhui Huang Yixiao Ge Ying Shan Hengshuang Zhao MLLM 62 0 0 12 Mar 2025
Active Learning Inspired ControlNet Guidance for Augmenting Semantic Segmentation Datasets H. Kniesel Pedro Hermosilla Timo Ropinski 60 0 0 12 Mar 2025
Long-horizon Visual Instruction Generation with Logic and Attribute Self-reflection Yucheng Suo Fan Ma Kaixin Shen Linchao Zhu Yi Yang VLM 47 0 0 12 Mar 2025
CoRe^2: Collect, Reflect and Refine to Generate Better and Faster Shitong Shao Zikai Zhou Dian Xie Yuetong Fang Tian Ye Lichen Bai Zeke Xie DiffM VLM 68 0 0 12 Mar 2025
I2V3D: Controllable image-to-video generation with 3D guidance Zhiyuan Zhang Dongdong Chen J. Liao VGen 53 0 0 12 Mar 2025
Zero-Shot Subject-Centric Generation for Creative Application Using Entropy Fusion Kaifeng Zou Xiaoyi Feng Peng Wang Tao Huang Zizhou Huang Zhang Haihang Yuntao Zou Dagang Li DiffM 49 0 0 12 Mar 2025
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models Sangwon Jang June Suk Choi Jaehyeong Jo Kimin Lee Sung Ju Hwang DiffM WIGM 79 1 0 12 Mar 2025
Leveraging Semantic Attribute Binding for Free-Lunch Color Control in Diffusion Models Héctor Laria Alexandra Gomez-Villa Jiang Qin Muhammad Atif Butt Bogdan Raducanu Javier Vázquez-Corral J. Weijer Kai Wang DiffM 60 0 0 12 Mar 2025
Unified Dense Prediction of Video Diffusion Lehan Yang Lu Qi X. Li Sheng Li Varun Jampani Ming Yang MDE VOS VGen 58 0 0 12 Mar 2025
InteractEdit: Zero-Shot Editing of Human-Object Interactions in Images Jiun Tian Hoe Weipeng Hu Wei Zhou Chao Xie Ziwei Wang Chee Seng Chan Xudong Jiang Y. Tan 61 0 0 12 Mar 2025
PromptMap: An Alternative Interaction Style for AI-Based Image Generation Krzysztof Adamkiewicz Paweł W. Woźniak Julia Dominiak Andrzej Romanowski Jakob Karolus Stanislav Frolov 59 1 0 12 Mar 2025
UniCombine: Unified Multi-Conditional Combination with Diffusion Transformer Haoxuan Wang Jinlong Peng Q. He Hao Yang Ying Jin ... Yanjie Pan Zhenye Gan M. Chi Bo Peng Y. Wang DiffM 53 0 0 12 Mar 2025
NAMI: Efficient Image Generation via Progressive Rectified Flow Transformers Yuhang Ma Bo Cheng Shanyuan Liu Ao Ma Xiaoyu Wu Liebucha Wu Dawei Leng Yuhui Yin 55 0 0 12 Mar 2025
SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation Junsong Chen Shuchen Xue Yuyang Zhao Jincheng Yu Sayak Paul Junyu Chen Han Cai E. Xie Song Han VLM 64 2 0 12 Mar 2025
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation Jing Wang Ao Ma Ke Cao Jun Zheng Zhanjie Zhang ... Yuhang Ma Bo Cheng Dawei Leng Yuhui Yin Xiaodan Liang VGen 87 3 0 11 Mar 2025
VRMDiff: Text-Guided Video Referring Matting Generation of Diffusion Lehan Yang Jincen Song Tianlong Wang Daiqing Qi Weili Shi Yuheng Liu Sheng Li DiffM VOS VGen 69 0 0 11 Mar 2025
MGHanD: Multi-modal Guidance for authentic Hand Diffusion Taehyeon Eum Jieun Choi Tae-Kyun Kim 38 0 0 11 Mar 2025
MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention Yuhan Wang Fangzhou Hong Shuai Yang Liming Jiang Wayne Wu Chen Change Loy VGen 48 0 0 11 Mar 2025
DiffEGG: Diffusion-Driven Edge Generation as a Pixel-Annotation-Free Alternative for Instance Annotation Sanghyun Jo Ziseok Lee Wooyeol Lee Kyungsu Kim 34 0 0 11 Mar 2025