SpaText: Spatio-Textual Representation for Controllable Image Generation

25 November 2022

Devi Parikh

Papers citing "SpaText: Spatio-Textual Representation for Controllable Image Generation"

27 / 27 papers shown

Title
VSC: Visual Search Compositional Text-to-Image Diffusion Model Do Huu Dat Nam Hyeonu Po Yuan Mao Tae-Hyun Oh DiffM CoGe 55 0 0 02 May 2025
PT-Mark: Invisible Watermarking for Text-to-image Diffusion Models via Semantic-aware Pivotal Tuning Y. Wang Huiyu Xu Zhibo Wang Jiacheng Du Z. Li Yiming Li Qiu Wang Kui Ren WIGM 47 0 0 15 Apr 2025
ComposeAnyone: Controllable Layout-to-Human Generation with Decoupled Multimodal Conditions Shiyue Zhang Zheng Chong Xi Lu Wenqing Zhang Haoxiang Li Xujie Zhang Jiehui Huang Xiao Dong Xiaodan Liang DiffM 40 0 0 21 Jan 2025
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation Koichi Namekata Sherwin Bahmani Ziyi Wu Yash Kant Igor Gilitschenski David B. Lindell VGen 55 13 0 07 Nov 2024
On Improved Conditioning Mechanisms and Pre-training Strategies for Diffusion Models Tariq Berrada Ifriqi Pietro Astolfi Melissa Hall Reyhane Askari Hemmat Yohann Benchetrit ... Matthew Muckley Karteek Alahari Adriana Romero Soriano Jakob Verbeek M. Drozdzal AI4CE VLM 45 3 0 05 Nov 2024
Rethinking The Training And Evaluation of Rich-Context Layout-to-Image Generation Jiaxin Cheng Zixu Zhao Tong He Tianjun Xiao Yicong Zhou Zheng Zhang DiffM 31 0 0 07 Sep 2024
Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models Yichen Sun Zhixuan Chu Zhan Qin Kui Ren DiffM 30 0 0 24 Jun 2024
Ctrl-X: Controlling Structure and Appearance for Text-To-Image Generation Without Guidance Kuan Heng Lin Sicheng Mo Ben Klingher Fangzhou Mu Bolei Zhou DiffM 16 15 0 11 Jun 2024
ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance Jiannan Huang Jun Hao Liew Hanshu Yan Yuyang Yin Yao Zhao Yunchao Wei Yunchao Wei DiffM 87 5 0 27 May 2024
User-Friendly Customized Generation with Multi-Modal Prompts Linhao Zhong Yan Hong Wentao Chen Binglin Zhou Yiyi Zhang Jianfu Zhang Liqing Zhang DiffM 35 0 0 26 May 2024
TextCenGen: Attention-Guided Text-Centric Background Adaptation for Text-to-Image Generation Tianyi Liang Jiangqi Liu Sicheng Song Shiqi Jiang Yifei Huang Changbo Wang Chenhui Li 40 0 0 18 Apr 2024
Diffusion Model-Based Image Editing: A Survey Yi Huang Jiancheng Huang Yifan Liu Mingfu Yan Jiaxi Lv Jianzhuang Liu Wei Xiong He Zhang Liangliang Cao Liangliang Cao EGVM 66 82 0 27 Feb 2024
Spatial-Aware Latent Initialization for Controllable Image Generation Wenqiang Sun Tengtao Li Zehong Lin Jun Zhang 19 10 0 29 Jan 2024
What's left can't be right -- The remaining positional incompetence of contrastive vision-language models Nils Hoehing Ellen Rushe Anthony Ventresque VLM 8 2 0 20 Nov 2023
AI-Generated Content (AIGC) for Various Data Modalities: A Survey Lin Geng Foo Hossein Rahmani J. Liu 59 30 0 27 Aug 2023
Masked-Attention Diffusion Guidance for Spatially Controlling Text-to-Image Generation Yuki Endo 22 8 0 11 Aug 2023
Differential Diffusion: Giving Each Pixel Its Strength E. Levin Ohad Fried DiffM 32 20 0 01 Jun 2023
Guided Image Synthesis via Initial Image Editing in Diffusion Model Jiafeng Mao Xueting Wang Kiyoharu Aizawa DiffM 17 52 0 05 May 2023
Expressive Text-to-Image Generation with Rich Text Songwei Ge Taesung Park Jun-Yan Zhu Jia-Bin Huang DiffM 74 75 0 13 Apr 2023
MDP: A Generalized Framework for Text-Guided Image Editing by Manipulating the Diffusion Path Qian Wang Biao Zhang Michael Birsak Peter Wonka DiffM 11 17 0 29 Mar 2023
Collage Diffusion Vishnu Sarukkai Linden Li Arden Ma Christopher Ré Kayvon Fatahalian DiffM 10 23 0 01 Mar 2023
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation Omer Bar-Tal Lior Yariv Y. Lipman Tali Dekel 40 361 1 16 Feb 2023
Re-Imagen: Retrieval-Augmented Text-to-Image Generator Wenhu Chen Hexiang Hu Chitwan Saharia William W. Cohen VLM 114 159 0 29 Sep 2022
Diffusion Models in Vision: A Survey Florinel-Alin Croitoru Vlad Hondru Radu Tudor Ionescu M. Shah DiffM VLM MedIm 186 1,098 0 10 Sep 2022
Blended Latent Diffusion Omri Avrahami Ohad Fried Dani Lischinski DiffM 27 368 0 06 Jun 2022
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,735 0 24 Feb 2021
Image-to-Image Translation with Conditional Adversarial Networks Phillip Isola Jun-Yan Zhu Tinghui Zhou Alexei A. Efros SSeg 212 19,191 0 21 Nov 2016