Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models

31 January 2023

Hila Chefer

Yuval Alaluf

Yael Vinker

Lior Wolf

Daniel Cohen-Or

DiffM

ArXiv PDF HTML

Papers citing "Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models"

50 / 403 papers shown

Title
Synthetic Shifts to Initial Seed Vector Exposes the Brittle Nature of Latent-Based Diffusion Models Poyuan Mao Shashank Kotyan Tham Yik Foong Danilo Vasconcellos Vargas 20 5 0 24 Nov 2023
LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis Peiang Zhao Han Li Ruiyang Jin S. Kevin Zhou DiffM 30 9 0 21 Nov 2023
An Image is Worth Multiple Words: Multi-attribute Inversion for Constrained Text-to-Image Synthesis Aishwarya Agarwal Srikrishna Karanam Tripti Shukla Balaji Vasan Srinivasan DiffM 98 19 0 20 Nov 2023
AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort Wen Wang Canyu Zhao Hao Chen Zhekai Chen Kecheng Zheng Chunhua Shen DiffM 16 21 0 19 Nov 2023
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models Omri Avrahami Amir Hertz Yael Vinker Moab Arar Shlomi Fruchter Ohad Fried Daniel Cohen-Or Dani Lischinski DiffM 34 32 0 16 Nov 2023
UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs Yanwu Xu Yang Zhao Zhisheng Xiao Tingbo Hou 129 105 0 14 Nov 2023
ChatAnything: Facetime Chat with LLM-Enhanced Personas Yilin Zhao Xinbin Yuan Shanghua Gao Zhijie Lin Qibin Hou Jiashi Feng Daquan Zhou 19 1 0 12 Nov 2023
Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems Derek Lilienthal Paul Mello Magdalini Eirinaki Stas Tiomkin SyDa DiffM 17 3 0 06 Nov 2023
Cross-Image Attention for Zero-Shot Appearance Transfer Yuval Alaluf Daniel Garibi Or Patashnik Hadar Averbuch-Elor Daniel Cohen-Or DiffM 22 66 0 06 Nov 2023
Detecting Deepfakes Without Seeing Any Tal Reiss Bar Cavia Yedid Hoshen AAML 14 15 0 02 Nov 2023
A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation Eyal Segalis Dani Valevski Danny Lumen Yossi Matias Yaniv Leviathan DiffM 26 22 0 25 Oct 2023
Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization Lijie Ding Jenny Zhang Jeff Clune Lee Spector Joel Lehman EGVM 14 7 0 18 Oct 2023
Progressive3D: Progressively Local Editing for Text-to-3D Content Creation with Complex Semantic Prompts Xinhua Cheng Tianyu Yang Jianan Wang Yu Li Lei Zhang Jian Zhang Li-ming Yuan DiffM 21 43 0 18 Oct 2023
AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion Yitong Jiang Zhaoyang Zhang Tianfan Xue Jinwei Gu DiffM 32 43 0 16 Oct 2023
Vision-by-Language for Training-Free Compositional Image Retrieval Shyamgopal Karthik Karsten Roth Massimiliano Mancini Zeynep Akata CoGe 18 17 0 13 Oct 2023
R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation Jiayu Xiao Henglei Lv Liang Li Shuhui Wang Qingming Huang DiffM 24 14 0 13 Oct 2023
Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation Zhengyuan Yang Jianfeng Wang Linjie Li Kevin Qinghong Lin Chung-Ching Lin Zicheng Liu Lijuan Wang LRM MLLM DiffM 11 22 0 12 Oct 2023
Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing Else Hazarapet Tunanyan Dejia Xu Shant Navasardyan Zhangyang Wang Humphrey Shi DiffM 69 7 0 11 Oct 2023
Uni-paint: A Unified Framework for Multimodal Image Inpainting with Pretrained Diffusion Model Shiyuan Yang Xiaodong Chen Jing Liao DiffM 20 59 0 11 Oct 2023
Improving Compositional Text-to-image Generation with Large Vision-Language Models Song Wen Guian Fang Renrui Zhang Peng Gao Hao Dong Dimitris N. Metaxas 16 17 0 10 Oct 2023
Predicated Diffusion: Predicate Logic-Based Attention Guidance for Text-to-Image Diffusion Models Kota Sueyoshi Takashi Matsubara DiffM 8 8 0 03 Oct 2023
TP2O: Creative Text Pair-to-Object Generation using Balance Swap-Sampling Jun Li Zedong Zhang Jian Yang DiffM 30 6 0 03 Oct 2023
AdaDiff: Accelerating Diffusion Models through Step-Wise Adaptive Computation Shengkun Tang Yaqing Wang Maksim Dzhigil Yi Liang Y. Li Dongkuan Xu 19 5 0 29 Sep 2023
KV Inversion: KV Embeddings Learning for Text-Conditioned Real Image Action Editing Jiarui Yao Yifan Liu Simon S. Du Shifeng Chen DiffM 11 24 0 28 Sep 2023
Targeted Image Data Augmentation Increases Basic Skills Captioning Robustness Valentin Barriere Felipe del Rio Andres Carvallo De Ferari Carlos Aspillaga Eugenio Herrera-Berg Cristian Buc Calderon DiffM 14 0 0 27 Sep 2023
Dynamic Prompt Learning: Addressing Cross-Attention Leakage for Text-Based Image Editing Kai Wang Fei Yang Shiqi Yang Muhammad Atif Butt Joost van de Weijer DiffM 15 50 0 27 Sep 2023
FEC: Three Finetuning-free Methods to Enhance Consistency for Real Image Editing Songyan Chen Jiancheng Huang DiffM 14 13 0 26 Sep 2023
COCO-Counterfactuals: Automatically Constructed Counterfactual Examples for Image-Text Pairs Tiep Le Vasudev Lal Phillip Howard DiffM 16 21 0 23 Sep 2023
MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation Jiahao Xie Wei Li Xiangtai Li Ziwei Liu Yew-Soon Ong Chen Change Loy DiffM VLM 57 35 0 22 Sep 2023
DreamLLM: Synergistic Multimodal Comprehension and Creation Runpei Dong Chunrui Han Yuang Peng Zekun Qi Zheng Ge ... Hao-Ran Wei Xiangwen Kong Xiangyu Zhang Kaisheng Ma Li Yi MLLM 28 168 0 20 Sep 2023
PGDiff: Guiding Diffusion Models for Versatile Face Restoration via Partial Guidance Peiqing Yang Shangchen Zhou Qingyi Tao Chen Change Loy DiffM 13 28 0 19 Sep 2023
Progressive Text-to-Image Diffusion with Soft Latent Direction Yuteng Ye Jiale Cai Hang Zhou Guanwen Li Youjia Zhang Zikai Song Chenxing Gao Junqing Yu Wei Yang 26 5 0 18 Sep 2023
On Copyright Risks of Text-to-Image Diffusion Models Yang Zhang Teoh Tze Tzun Lim Wei Hern Haonan Wang Kenji Kawaguchi 31 9 0 15 Sep 2023
Create Your World: Lifelong Text-to-Image Diffusion Gan Sun Wenqi Liang Jiahua Dong Jun Li Zhengming Ding Yang Cong DiffM VLM 22 27 0 08 Sep 2023
MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask Yupeng Zhou Daquan Zhou Zuo-Liang Zhu Yaxing Wang Qibin Hou Jiashi Feng 8 10 0 08 Sep 2023
SLiMe: Segment Like Me Aliasghar Khani Saeid Asgari Taghanaki Aditya Sanghi Ali Mahdavi-Amiri Ghassan Hamarneh VLM 10 29 0 06 Sep 2023
Diffusion Model is Secretly a Training-free Open Vocabulary Semantic Segmenter Jinglong Wang Xiawei Li Jing Zhang Qingyuan Xu Qin Zhou Qian Yu Lu Sheng Dong Xu VLM DiffM 19 45 0 06 Sep 2023
A Survey of Diffusion Based Image Generation Models: Issues and Their Solutions Tianyi Zhang Zheng Wang Jin Huang M. M. Tasnim Wei Shi VLM 11 21 0 25 Aug 2023
Dense Text-to-Image Generation with Attention Modulation Yunji Kim Jiyoung Lee Jin-Hwa Kim Jung-Woo Ha Jun-Yan Zhu DiffM 28 128 0 24 Aug 2023
DiffCloth: Diffusion Based Garment Synthesis and Manipulation via Structural Cross-modal Semantic Alignment Xujie Zhang Binbin Yang Michael C. Kampffmeyer Wenqing Zhang Shiyue Zhang Guansong Lu Liang Lin Hang Xu Xiaodan Liang DiffM 23 7 0 22 Aug 2023
ConceptLab: Creative Concept Generation using VLM-Guided Diffusion Prior Constraints Elad Richardson Kfir Goldberg Yuval Alaluf Daniel Cohen-Or DiffM 16 10 0 03 Aug 2023
Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation Guojin Zhong Jin Yuan Pan Wang Kailun Yang Weili Guan Zhiyong Li DiffM 11 6 0 02 Aug 2023
Understanding the Latent Space of Diffusion Models through the Lens of Riemannian Geometry Yong-Hyun Park Mingi Kwon J. Choi Junghyo Jo Youngjung Uh DiffM 23 60 0 24 Jul 2023
TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition Shilin Lu Yanzhu Liu A. Kong 37 51 0 24 Jul 2023
Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning Jiancang Ma Junhao Liang Chen Chen H. Lu 18 138 0 21 Jul 2023
Divide & Bind Your Attention for Improved Generative Semantic Nursing Yumeng Li M. Keuper Dan Zhang Anna Khoreva DiffM 21 47 0 20 Jul 2023
BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained Diffusion Jinheng Xie Yuexiang Li Yawen Huang Haozhe Liu Wentian Zhang Yefeng Zheng Mike Zheng Shou DiffM 20 111 0 20 Jul 2023
TokenFlow: Consistent Diffusion Features for Consistent Video Editing Michal Geyer Omer Bar-Tal Shai Bagon Tali Dekel VGen DiffM 15 249 0 19 Jul 2023
TIAM -- A Metric for Evaluating Alignment in Text-to-Image Generation P. Grimal Hervé Le Borgne Olivier Ferret Julien Tourille EGVM 29 10 0 11 Jul 2023
Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image Alignment with Iterative VQA Feedback Jaskirat Singh Liang Zheng 18 18 0 10 Jul 2023