Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models

31 January 2023

Hila Chefer

Yuval Alaluf

Yael Vinker

Lior Wolf

Daniel Cohen-Or

DiffM

ArXiv PDF HTML

Papers citing "Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models"

50 / 403 papers shown

Title
Text2Street: Controllable Text-to-image Generation for Street Views Jinming Su Songen Gu Yiting Duan Xing‐zhen Chen Junfeng Luo DiffM 43 5 0 07 Feb 2024
InstanceDiffusion: Instance-level Control for Image Generation Xudong Wang Trevor Darrell Sai Saketh Rambhatla Rohit Girdhar Ishan Misra VLM DiffM 17 81 0 05 Feb 2024
Training-Free Consistent Text-to-Image Generation Yoad Tewel Omri Kaduri Rinon Gal Yoni Kasten Lior Wolf Gal Chechik Y. Atzmon DiffM 20 50 0 05 Feb 2024
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion Shiyuan Yang Liang Hou Haibin Huang Chongyang Ma Pengfei Wan Di Zhang Xiaodong Chen Jing Liao VGen DiffM 64 77 0 05 Feb 2024
Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization Henglei Lv Jiayu Xiao Liang Li Qingming Huang DiffM 15 5 0 30 Jan 2024
Do You Guys Want to Dance: Zero-Shot Compositional Human Dance Generation with Multiple Persons Zhe Xu Kun-Juan Wei Xu Yang Cheng Deng DiffM 12 4 0 24 Jan 2024
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs Ling Yang Zhaochen Yu Chenlin Meng Minkai Xu Stefano Ermon Bin Cui CoGe DiffM 24 113 0 22 Jan 2024
Large-scale Reinforcement Learning for Diffusion Models Yinan Zhang Eric Tzeng Yilun Du Dmitry Kislyuk VLM 19 29 0 20 Jan 2024
Evolutionary Computation in the Era of Large Language Model: Survey and Roadmap Xingyu Wu Sheng-hao Wu Jibin Wu Liang Feng Kay Chen Tan ELM 34 57 0 18 Jan 2024
Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive Yumeng Li M. Keuper Dan Zhang Anna Khoreva DiffM 35 10 0 16 Jan 2024
Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks Chenyu Zhang Lanjun Wang Anan Liu 14 6 0 16 Jan 2024
PALP: Prompt Aligned Personalization of Text-to-Image Models Moab Arar Andrey Voynov Amir Hertz Omri Avrahami Shlomi Fruchter Yael Pritch Daniel Cohen-Or Ariel Shamir DiffM 13 19 0 11 Jan 2024
SpecRef: A Fast Training-free Baseline of Specific Reference-Condition Real Image Editing Songyan Chen Jiancheng Huang DiffM 16 7 0 07 Jan 2024
Generating Non-Stationary Textures using Self-Rectification Yang Zhou Rongjun Xiao Dani Lischinski Daniel Cohen-Or Hui Huang DiffM 14 4 0 05 Jan 2024
SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation Yuxuan Zhang Yiren Song Jiaming Liu Rui Wang Jinpeng Yu ... Huaxia Li Xu Tang Yao Hu Han Pan Zhongliang Jing 19 58 0 26 Dec 2023
Semantic Guidance Tuning for Text-To-Image Diffusion Models Hyun Kang Dohae Lee Myungjin Shin In-Kwon Lee 14 1 0 26 Dec 2023
HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models Hayk Manukyan Andranik Sargsyan Barsegh Atanyan Zhangyang Wang Shant Navasardyan Humphrey Shi DiffM 20 28 0 21 Dec 2023
Prompting Hard or Hardly Prompting: Prompt Inversion for Text-to-Image Diffusion Models Shweta Mahajan Tanzila Rahman Kwang Moo Yi Leonid Sigal DiffM 13 17 0 19 Dec 2023
MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance Qi Mao Lan Chen Yuchao Gu Zhen Fang Mike Zheng Shou DiffM 20 9 0 18 Dec 2023
MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual Storytelling via Multi-Layered Semantic-Aware Denoising Bingyuan Wang Hengyu Meng Zeyu Cai Lanjiong Li Yue Ma Qifeng Chen Zeyu Wang DiffM 21 3 0 18 Dec 2023
Focus on Your Instruction: Fine-grained and Multi-instruction Image Editing by Attention Modulation Qin Guo Tianwei Lin DiffM 13 28 0 15 Dec 2023
LIME: Localized Image Editing via Attention Regularization in Diffusion Models Enis Simsar A. Tonioni Yongqin Xian Thomas Hofmann Federico Tombari DiffM 22 8 0 14 Dec 2023
SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds Minghao Chen Junyu Xie Iro Laina Andrea Vedaldi KELM 37 9 0 14 Dec 2023
PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved Personalization Xu Peng Junwei Zhu Boyuan Jiang Ying Tai Donghao Luo Jiangning Zhang Wei Lin Taisong Jin Chengjie Wang Rongrong Ji DiffM 25 54 0 11 Dec 2023
CONFORM: Contrast is All You Need For High-Fidelity Text-to-Image Diffusion Models Tuna Han Salih Meral Enis Simsar Federico Tombari Pinar Yanardag DiffM VLM 20 26 0 11 Dec 2023
Correcting Diffusion Generation through Resampling Yujian Liu Yang Zhang Tommi Jaakkola Shiyu Chang 18 6 0 10 Dec 2023
UDiffText: A Unified Framework for High-quality Text Synthesis in Arbitrary Images via Character-aware Diffusion Models Yiming Zhao Zhouhui Lian 71 25 0 08 Dec 2023
RS-Corrector: Correcting the Racial Stereotypes in Latent Diffusion Models Yue Jiang Yueming Lyu Tianxiang Ma Bo Peng Jing Dong 40 3 0 08 Dec 2023
ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image Generations Maitreya Patel Changhoon Kim Sheng Cheng Chitta Baral Yezhou Yang VLM 27 18 0 07 Dec 2023
Prompt Highlighter: Interactive Control for Multi-Modal LLMs Yuechen Zhang Shengju Qian Bohao Peng Shu-Lin Liu Jiaya Jia MLLM 29 19 0 07 Dec 2023
TokenCompose: Text-to-Image Diffusion with Token-level Supervision Zirui Wang Zhizhou Sha Zheng Ding Yilin Wang Zhuowen Tu DiffM 16 21 0 06 Dec 2023
Language-Informed Visual Concept Learning Sharon Lee Yunzhi Zhang Shangzhe Wu Jiajun Wu CoGe 19 9 0 06 Dec 2023
Make-A-Storyboard: A General Framework for Storyboard with Disentangled and Merged Control Sitong Su Litao Guo Lianli Gao Hengtao Shen Jingkuan Song DiffM 19 3 0 06 Dec 2023
ViscoNet: Bridging and Harmonizing Visual and Textual Conditioning for ControlNet Soon Yau Cheong Armin Mustafa Andrew Gilbert DiffM 8 5 0 05 Dec 2023
Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment Brian Gordon Yonatan Bitton Yonatan Shafir Roopal Garg Xi Chen Dani Lischinski Daniel Cohen-Or Idan Szpektor 35 11 0 05 Dec 2023
TPA3D: Triplane Attention for Fast Text-to-3D Generation Hong-En Chen Bin-Shih Wu Sheng-Yu Huang Yu-Chiang Frank Wang 9 2 0 05 Dec 2023
A Contrastive Compositional Benchmark for Text-to-Image Synthesis: A Study with Unified Text-to-Image Fidelity Metrics Xiangru Zhu Penglei Sun Chengyu Wang Jingping Liu Zhixu Li Yanghua Xiao Jun Huang CoGe 100 5 0 04 Dec 2023
Style Aligned Image Generation via Shared Attention Amir Hertz Andrey Voynov Shlomi Fruchter Daniel Cohen-Or DiffM 13 122 0 04 Dec 2023
UniGS: Unified Representation for Image Generation and Segmentation Lu Qi Lehan Yang Weidong Guo Yu-Syuan Xu Bo Du Varun Jampani Ming-Hsuan Yang 20 17 0 04 Dec 2023
GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs Gege Gao Weiyang Liu Anpei Chen Andreas Geiger Bernhard Schölkopf DiffM 18 43 0 30 Nov 2023
Detailed Human-Centric Text Description-Driven Large Scene Synthesis Gwanghyun Kim Dong un Kang H. Seo Hayeon Kim Se Young Chun 3DV DiffM 14 2 0 30 Nov 2023
SODA: Bottleneck Diffusion Models for Representation Learning Drew A. Hudson Daniel Zoran Mateusz Malinowski Andrew Kyle Lampinen Andrew Jaegle James L. McClelland Loic Matthey Felix Hill Alexander Lerchner DiffM 9 12 0 29 Nov 2023
Spice-E : Structural Priors in 3D Diffusion using Cross-Entity Attention Etai Sella Gal Fiebelman Noam Atia Hadar Averbuch-Elor DiffM 31 2 0 29 Nov 2023
GenZI: Zero-Shot 3D Human-Scene Interaction Generation Lei Li Angela Dai VGen 16 21 0 29 Nov 2023
Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer Danah Yatim Rafail Fridman Omer Bar-Tal Yoni Kasten Tali Dekel DiffM VGen 16 50 0 28 Nov 2023
Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following Yutong Feng Biao Gong Di Chen Yujun Shen Yu Liu Jingren Zhou DiffM 21 43 0 28 Nov 2023
Reason out Your Layout: Evoking the Layout Master from Large Language Models for Text-to-Image Synthesis Xiaohui Chen Yongfei Liu Yingxiang Yang Jianbo Yuan Quanzeng You Liping Liu Hongxia Yang DiffM 39 11 0 28 Nov 2023
LEDITS++: Limitless Image Editing using Text-to-Image Models Manuel Brack Felix Friedrich Katharina Kornmeier Linoy Tsaban P. Schramowski Kristian Kersting Apolinário Passos DiffM 19 69 0 28 Nov 2023
CLiC: Concept Learning in Context Mehdi Safaee Aryan Mikaeili Or Patashnik Daniel Cohen-Or Ali Mahdavi-Amiri 10 11 0 28 Nov 2023
Check, Locate, Rectify: A Training-Free Layout Calibration System for Text-to-Image Generation Biao Gong Siteng Huang Yutong Feng Shiwei Zhang Yuyuan Li Yu Liu DiffM 10 11 0 27 Nov 2023