Grounded Text-to-Image Synthesis with Attention Refocusing

8 June 2023

Papers citing "Grounded Text-to-Image Synthesis with Attention Refocusing"

50 / 93 papers shown

Title
HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation Hang Wang Zhi-Qi Cheng Chenhao Lin Chao Shen Lei Zhang DiffM 35 0 0 10 May 2025
ESPLoRA: Enhanced Spatial Precision with Low-Rank Adaption in Text-to-Image Diffusion Models for High-Definition Synthesis Andrea Rigo Luca Stornaiuolo Mauro Martino Bruno Lepri N. Sebe 48 0 0 18 Apr 2025
The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation Bingjie Gao Xinyu Gao Xiaoxue Wu Yujie Zhou Yu Qiao Li Niu Xinyuan Chen Yaohui Wang 76 0 0 16 Apr 2025
Hierarchical and Step-Layer-Wise Tuning of Attention Specialty for Multi-Instance Synthesis in Diffusion Transformers Chunyang Zhang Zhenhong Sun Zhicheng Zhang Junyan Wang Yu Zhang Dong Gong H. Mo Daoyi Dong 45 0 0 14 Apr 2025
Training-free Dense-Aligned Diffusion Guidance for Modular Conditional Image Synthesis Zixuan Wang Duo Peng Feng Chen Yuqing Yang Yinjie Lei DiffM 79 0 0 02 Apr 2025
On Geometrical Properties of Text Token Embeddings for Strong Semantic Binding in Text-to-Image Generation H. Seo Junseo Bang Haechang Lee Joohoon Lee Byung Hyun Lee Se Young Chun 46 0 0 29 Mar 2025
Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing Fan Qi Yu Duan Changsheng Xu DiffM 57 0 0 27 Mar 2025
BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation Yuyang Peng Shishi Xiao Keming Wu Qisheng Liao Bohan Chen Kevin Lin Danqing Huang Ji Li Yuhui Yuan DiffM 79 1 0 26 Mar 2025
ComfyGPT: A Self-Optimizing Multi-Agent System for Comprehensive ComfyUI Workflow Generation Oucheng Huang Yuhang Ma Zeng Zhao Mingrui Wu Jiayi Ji Rongsheng Zhang Z. Hu Xiaoshuai Sun Rongrong Ji 46 0 0 22 Mar 2025
MOSAIC: Generating Consistent, Privacy-Preserving Scenes from Multiple Depth Views in Multi-Room Environments Zhixuan Liu H. Zhu R. Chen Jonathan M Francis Soonmin Hwang J. J. Zhang Jean Oh VGen 175 0 0 18 Mar 2025
DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models Dewei Zhou Mingwei Li Zongxin Yang Yi Yang 94 0 0 17 Mar 2025
Piece it Together: Part-Based Concepting with IP-Priors Elad Richardson Kfir Goldberg Yuval Alaluf Daniel Cohen-Or DiffM 66 0 0 13 Mar 2025
InteractEdit: Zero-Shot Editing of Human-Object Interactions in Images Jiun Tian Hoe Weipeng Hu Wei Zhou Chao Xie Ziwei Wang Chee Seng Chan Xudong Jiang Y. Tan 61 0 0 12 Mar 2025
ToLo: A Two-Stage, Training-Free Layout-To-Image Generation Framework For High-Overlap Layouts Linhao Huang Jing Yu DiffM 49 0 0 03 Mar 2025
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing Xiangpeng Yang Linchao Zhu Hehe Fan Yi Yang DiffM VGen 49 5 0 24 Feb 2025
Precise Parameter Localization for Textual Generation in Diffusion Models Łukasz Staniszewski Bartosz Cywiñski Franziska Boenisch Kamil Deja Adam Dziedzic DiffM 175 0 0 17 Feb 2025
Self-Cross Diffusion Guidance for Text-to-Image Synthesis of Similar Subjects Weimin Qiu Jieke Wang Meng Tang DiffM 82 0 0 28 Nov 2024
Leapfrog Latent Consistency Model (LLCM) for Medical Images Generation Lakshmikar R. Polamreddy Kalyan Roy Sheng-Han Yueh Deepshikha Mahato Shilpa Kuppili Jialu Li Youshan Zhang MedIm 80 1 0 22 Nov 2024
Boundary Attention Constrained Zero-Shot Layout-To-Image Generation Huancheng Chen Jingtao Li Weiming Zhuang H. Vikalo Lingjuan Lyu DiffM 36 0 0 15 Nov 2024
Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis Taihang Hu Linxuan Li Joost van de Weijer Hongcheng Gao Fahad Shahbaz Khan Jian Yang Ming-Ming Cheng Kai Wang Yaxing Wang DiffM 57 4 0 11 Nov 2024
Improving image synthesis with diffusion-negative sampling Alakh Desai Nuno Vasconcelos DiffM 37 0 0 08 Nov 2024
Towards Small Object Editing: A Benchmark Dataset and A Training-Free Approach Qihe Pan Zhen Zhao Zicheng Wang Sifan Long Yiming Wu Wei Ji Haoran Liang Ronghua Liang 31 0 0 03 Nov 2024
Adapting Diffusion Models for Improved Prompt Compliance and Controllable Image Synthesis Deepak Sridhar Abhishek Peri Rohith Rachala Nuno Vasconcelos DiffM 37 0 0 29 Oct 2024
GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation Phillip Y. Lee Taehoon Yoon Minhyuk Sung 46 4 1 27 Oct 2024
TopoDiffusionNet: A Topology-aware Diffusion Model Saumya Gupta Dimitris Samaras Cheng Chen DiffM 38 4 0 22 Oct 2024
Generating Intermediate Representations for Compositional Text-To-Image Generation Ran Galun Sagie Benaim 25 0 0 13 Oct 2024
A Cat Is A Cat (Not A Dog!): Unraveling Information Mix-ups in Text-to-Image Encoders through Causal Analysis and Embedding Optimization Chieh-Yun Chen Chiang Tseng Li-Wu Tsao Hong-Han Shuai 22 6 0 01 Oct 2024
SpaceBlender: Creating Context-Rich Collaborative Spaces Through Generative 3D Scene Blending Nels Numan Shwetha Rajaram Balasaravanan Thoravi Kumaravel Nicolai Marquardt A. D. Wilson 31 1 0 20 Sep 2024
DreamBeast: Distilling 3D Fantastical Animals with Part-Aware Knowledge Transfer Runjia Li Junlin Han Luke Melas-Kyriazi Chunyi Sun Zhaochong An Zhongrui Gui Shuyang Sun Philip Torr Tomas Jakab 40 1 0 12 Sep 2024
Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis Zebin Yao Fangxiang Feng Ruifan Li Xiaojie Wang DiffM 44 1 0 07 Aug 2024
SceneTeller: Language-to-3D Scene Generation Basak Melis Öcal Maxim Tatarchenko Sezer Karaoglu Theo Gevers 40 6 0 30 Jul 2024
Faster Image2Video Generation: A Closer Look at CLIP Image Embedding's Impact on Spatio-Temporal Cross-Attentions Ashkan Taghipour Morteza Ghahremani Bennamoun Aref Miri Rekavandi Zinuo Li Hamid Laga F. Boussaïd VGen 79 2 0 27 Jul 2024
The Fabrication of Reality and Fantasy: Scene Generation with LLM-Assisted Prompt Interpretation Yi Yao Chan-Feng Hsu Jhe-Hao Lin Hongxia Xie Terence Lin Yi-Ning Huang Hong-Han Shuai Wen-Huang Cheng DiffM 34 4 0 17 Jul 2024
Adversarial Attacks and Defenses on Text-to-Image Diffusion Models: A Survey Chenyu Zhang Mingwang Hu Wenhui Li Lanjun Wang 41 15 0 10 Jul 2024
Sketch-Guided Scene Image Generation Tianyu Zhang Xiaoxuan Xie Xusheng Du H. Xie DiffM 43 2 0 09 Jul 2024
MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation? Zhaorun Chen Yichao Du Zichen Wen Yiyang Zhou Chenhang Cui ... Jiawei Zhou Zhuokai Zhao Rafael Rafailov Chelsea Finn Huaxiu Yao EGVM MLLM 58 29 0 05 Jul 2024
AlignIT: Enhancing Prompt Alignment in Customization of Text-to-Image Models Aishwarya Agarwal Srikrishna Karanam Balaji Vasan Srinivasan 36 1 0 27 Jun 2024
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models Bingqi Ma Zhuofan Zong Guanglu Song Hongsheng Li Yu Liu 32 21 0 17 Jun 2024
Composing Object Relations and Attributes for Image-Text Matching Khoi Pham Chuong Huynh Ser-Nam Lim Abhinav Shrivastava CoGe 44 3 0 17 Jun 2024
Understanding Multi-Granularity for Open-Vocabulary Part Segmentation Jiho Choi Seonho Lee Seungho Lee Minhyun Lee Hyunjung Shim OCL 45 0 0 17 Jun 2024
DiffusionPID: Interpreting Diffusion via Partial Information Decomposition Shaurya Dewan Rushikesh Zawar Prakanshul Saxena Yingshan Chang Andrew F. Luo Yonatan Bisk DiffM 46 4 0 07 Jun 2024
AttnDreamBooth: Towards Text-Aligned Personalized Text-to-Image Generation Lianyu Pang Jian Yin Baoquan Zhao Feize Wu Fu Lee Wang Qing Li Xudong Mao DiffM 47 1 0 07 Jun 2024
Coherent Zero-Shot Visual Instruction Generation Quynh Phung Songwei Ge Jia-Bin Huang 57 2 0 06 Jun 2024
The Crystal Ball Hypothesis in diffusion models: Anticipating object positions from initial noise Yuanhao Ban Ruochen Wang Tianyi Zhou Boqing Gong Cho-Jui Hsieh Minhao Cheng DiffM 65 4 0 04 Jun 2024
AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization Junjie Shentu Matthew Watson Noura Al Moubayed DiffM 49 0 0 28 May 2024
Bridging the Intent Gap: Knowledge-Enhanced Visual Generation Yi Cheng Ziwei Xu Dongyun Lin Harry Cheng Yongkang Wong Ying Sun Joo Hwee Lim Mohan S. Kankanhalli 41 0 0 21 May 2024
Compositional Text-to-Image Generation with Dense Blob Representations Weili Nie Sifei Liu Morteza Mardani Chao Liu Benjamin Eckart Arash Vahdat DiffM 86 17 0 14 May 2024
Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable Haozhe Liu Wentian Zhang Bing Li Bernard Ghanem Jürgen Schmidhuber DiffM WIGM AAML 36 1 0 01 May 2024
MaGGIe: Masked Guided Gradual Human Instance Matting Chuong Huynh Seoung Wug Oh Abhinav Shrivastava Joon-Young Lee VOS 35 8 0 24 Apr 2024
Towards Better Text-to-Image Generation Alignment via Attention Modulation Yihang Wu Xiao Cao Kaixin Li Zitan Chen Haonan Wang Lei Meng Zhiyong Huang DiffM 34 5 0 22 Apr 2024