Generating Images from Captions with Attention

9 November 2015

Jimmy Lei Ba

Papers citing "Generating Images from Captions with Attention"

50 / 243 papers shown

Title
Spiritus: An AI-Assisted Tool for Creating 2D Characters and Animations Qirui Sun Yunyi Ni Teli Yuan J. Zhang Fan Yang Zhihao Yao Haipeng Mi DiffM 44 0 0 13 Mar 2025
NaviDet: Efficient Input-level Backdoor Detection on Text-to-Image Synthesis via Neuron Activation Variation Shengfang Zhai Jiajun Li Yue Liu Huanran Chen Zhihua Tian Wenjie Qu Qingni Shen Ruoxi Jia Yinpeng Dong Jiaheng Zhang AAML 44 0 0 09 Mar 2025
Text-to-Image Generation for Vocabulary Learning Using the Keyword Method Nuwan T. Attygalle M. Kljun Aaron Quigley Klen Copic Pucihar Jens Grubert ... Juri Yoneyama Alice Toniolo Angela Miguel Hirokazu Kato M. Weerasinghe DiffM 78 0 0 28 Jan 2025
Do Existing Testing Tools Really Uncover Gender Bias in Text-to-Image Models? Yunbo Lyu Zhou Yang Yuqing Niu Jing Jiang David Lo 32 1 0 28 Jan 2025
Buster: Implanting Semantic Backdoor into Text Encoder to Mitigate NSFW Content Generation Xin Zhao Xiaojun Chen Yuexin Xuan Zhendong Zhao Xiaojun Jia Xinfeng Li Xiaofeng Wang 72 0 0 10 Dec 2024
HASN: Hybrid Attention Separable Network for Efficient Image Super-resolution Weifeng Cao Xiaoyan Lei Jun Shi Wanyong Liang Jie Liu Zongfei Bai SupR 24 0 0 13 Oct 2024
Generating Intermediate Representations for Compositional Text-To-Image Generation Ran Galun Sagie Benaim 23 0 0 13 Oct 2024
Level of agreement between emotions generated by Artificial Intelligence and human evaluation: a methodological proposal Miguel Carrasco César González-Martín Sonia Navajas-Torrente Raul Dastres 42 1 0 10 Oct 2024
Detecting Dataset Abuse in Fine-Tuning Stable Diffusion Models for Text-to-Image Synthesis Songrui Wang Yubo Zhu Wei Tong Sheng Zhong WIGM 22 0 0 27 Sep 2024
Blended Latent Diffusion under Attention Control for Real-World Video Editing Deyin Liu Lin Yuanbo Wu Xianghua Xie DiffM 46 0 0 05 Sep 2024
Perception-guided Jailbreak against Text-to-Image Models Yihao Huang Le Liang Tianlin Li Xiaojun Jia Run Wang Weikai Miao G. Pu Yang Liu 39 7 0 20 Aug 2024
Quality Assessment in the Era of Large Models: A Survey Zicheng Zhang Yingjie Zhou Chunyi Li Baixuan Zhao Xiaohong Liu Guangtao Zhai 40 10 0 17 Aug 2024
A Survey on Integrated Sensing, Communication, and Computation Dingzhu Wen Yong Zhou Xiaoyang Li Yuanming Shi Kaibin Huang Khaled B. Letaief 29 0 0 15 Aug 2024
Jailbreaking Text-to-Image Models with LLM-Based Agents Yingkai Dong Zheng Li Xiangtao Meng Ning Yu Shanqing Guo LLMAG 36 13 0 01 Aug 2024
Fine-gained Zero-shot Video Sampling Dengsheng Chen Jie Hu Javier Segovia-Aguas Enhua Wu VGen DiffM 24 0 0 31 Jul 2024
Repairing Catastrophic-Neglect in Text-to-Image Diffusion Models via Attention-Guided Feature Enhancement Zhiyuan Chang Mingyang Li Junjie Wang Yi Liu Qing Wang Yang Liu DiffM 18 1 0 24 Jun 2024
A Comprehensive Taxonomy and Analysis of Talking Head Synthesis: Techniques for Portrait Generation, Driving Mechanisms, and Editing Ming Meng Yufei Zhao Bo Zhang Yonggui Zhu Weimin Shi Maxwell Wen Zhaoxin Fan VGen 34 1 0 15 Jun 2024
A-Bench: Are LMMs Masters at Evaluating AI-generated Images? Zicheng Zhang H. Wu Chunyi Li Yingjie Zhou Wei Sun Xiongkuo Min Zijian Chen Xiaohong Liu Weisi Lin Guangtao Zhai EGVM 59 16 0 05 Jun 2024
Training-free Editioning of Text-to-Image Models Jinqi Wang Yunfei Fu Zhangcan Ding Bailin Deng Yu-Kun Lai Yipeng Qin DiffM VLM 34 0 0 27 May 2024
Infinite Texture: Text-guided High Resolution Diffusion Texture Synthesis Yifan Wang Aleksander Holynski Brian L. Curless Steven M. Seitz 27 1 0 13 May 2024
DVMSR: Distillated Vision Mamba for Efficient Super-Resolution Xiaoyan Lei Wenlong Zhang Weifeng Cao 27 11 0 05 May 2024
Iteratively Prompting Multimodal LLMs to Reproduce Natural and AI-Generated Images Ali Naseh Katherine Thai Mohit Iyyer Amir Houmansadr 33 5 0 21 Apr 2024
Attention Calibration for Disentangled Text-to-Image Personalization Yanbing Zhang Mengping Yang Qin Zhou Zhe Wang 27 15 0 27 Mar 2024
Can AI Outperform Human Experts in Creating Social Media Creatives? Eunkyung Park Raymond K. Wong Junbum Kwon 30 0 0 19 Mar 2024
Towards Effective Usage of Human-Centric Priors in Diffusion Models for Text-based Human Image Generation Junyan Wang Zhenhong Sun Zhiyu Tan Xuanbai Chen Weihua Chen Hao Li Cheng Zhang Yang Song 32 9 0 08 Mar 2024
PromptCharm: Text-to-Image Generation through Multi-modal Prompting and Refinement Zhijie Wang Yuheng Huang Da Song Lei Ma Tianyi Zhang DiffM 40 56 0 06 Mar 2024
HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances Supreeth Narasimhaswamy Uttaran Bhattacharya Xiang Chen Ishita Dasgupta Saayan Mitra Minh Hoai DiffM 24 23 0 04 Mar 2024
Text-guided Explorable Image Super-resolution Kanchana Vaishnavi Gandikota Paramanand Chandramouli 40 7 0 02 Mar 2024
LoMOE: Localized Multi-Object Editing via Multi-Diffusion Goirik Chakrabarty Aditya Chandrasekar Ramya Hebbalaguppe AP Prathosh DiffM 48 6 0 01 Mar 2024
Generative AI in Vision: A Survey on Models, Metrics and Applications Gaurav Raut Apoorv Singh VLM MedIm 41 6 0 26 Feb 2024
Dynamic and Super-Personalized Media Ecosystem Driven by Generative AI: Unpredictable Plays Never Repeating The Same Sungjun Ahn Hyun-Jeong Yim Youngwan Lee Sung-Ik Park VGen 41 4 0 19 Feb 2024
Text2Street: Controllable Text-to-image Generation for Street Views Jinming Su Songen Gu Yiting Duan Xing‐zhen Chen Junfeng Luo DiffM 50 5 0 07 Feb 2024
Emage: Non-Autoregressive Text-to-Image Generation Zhangyin Feng Runyi Hu Liangxin Liu Fan Zhang Duyu Tang Yong Dai Xiaocheng Feng Jiwei Li Bing Qin Shuming Shi DiffM VLM 14 0 0 22 Dec 2023
FineControlNet: Fine-level Text Control for Image Generation with Spatially Aligned Text Control Injection Hongsuk Choi Isaac Kasahara Selim Engin Moritz Graule Nikhil Chavan-Dafle Volkan Isler DiffM 16 3 0 14 Dec 2023
Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment Brian Gordon Yonatan Bitton Yonatan Shafir Roopal Garg Xi Chen Dani Lischinski Daniel Cohen-Or Idan Szpektor 35 11 0 05 Dec 2023
Tell2Design: A Dataset for Language-Guided Floor Plan Generation Sicong Leng Yangqiaoyu Zhou Mohammed Haroon Dupty W. Lee Sam Joyce Wei Lu 3DV 27 10 0 27 Nov 2023
Steal My Artworks for Fine-tuning? A Watermarking Framework for Detecting Art Theft Mimicry in Text-to-Image Models Ge Luo Junqiang Huang Manman Zhang Zhenxing Qian Sheng Li Xinpeng Zhang WIGM 15 9 0 22 Nov 2023
EditShield: Protecting Unauthorized Image Editing by Instruction-guided Diffusion Models Ruoxi Chen Haibo Jin Yixin Liu Jinyin Chen Haohan Wang Lichao Sun 26 10 0 19 Nov 2023
'Person' == Light-skinned, Western Man, and Sexualization of Women of Color: Stereotypes in Stable Diffusion Sourojit Ghosh Aylin Caliskan 49 29 0 30 Oct 2023
Transformation vs Tradition: Artificial General Intelligence (AGI) for Arts and Humanities Zheng Liu Yiwei Li Qian Cao Junwen Chen Tianze Yang ... John Gibbs Khaled Rasheed Ninghao Liu Gengchen Mai Tianming Liu AI4CE 36 10 0 30 Oct 2023
Getting aligned on representational alignment Ilia Sucholutsky Lukas Muttenthaler Adrian Weller Andi Peng Andreea Bobu ... Thomas Unterthiner Andrew Kyle Lampinen Klaus-Robert Muller M. Toneva Thomas L. Griffiths 56 73 0 18 Oct 2023
GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment Dhruba Ghosh Hanna Hajishirzi Ludwig Schmidt 9 134 0 17 Oct 2023
Teaching Text-to-Image Models to Communicate in Dialog Xiaowen Sun Jiazhan Feng Yuxuan Wang Yuxuan Lai Xingyu Shen Dongyan Zhao DiffM 19 1 0 27 Sep 2023
ITI-GEN: Inclusive Text-to-Image Generation Cheng Zhang Xuanbai Chen Siqi Chai Chen Henry Wu Dmitry Lagun Thabo Beeler Fernando De la Torre VLM 25 52 0 11 Sep 2023
RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model Fengxiang Bie Yibo Yang Zhongzhu Zhou Adam Ghanem Minjia Zhang ... Pareesa Ameneh Golnari David A. Clifton Yuxiong He Dacheng Tao S. Song EGVM 25 18 0 02 Sep 2023
AI-Generated Content (AIGC) for Various Data Modalities: A Survey Lin Geng Foo Hossein Rahmani J. Liu 65 31 0 27 Aug 2023
Edit Temporal-Consistent Videos with Image Diffusion Model Yuan-Zheng Wang Yong Li Xiaoya Zhang Xin Liu Anbo Dai Antoni B. Chan Zhen Cui DiffM 25 6 0 17 Aug 2023
CoDeF: Content Deformation Fields for Temporally Consistent Video Processing Ouyang Hao Qiuyu Wang Yuxi Xiao Qingyan Bai Juntao Zhang Kecheng Zheng Xiaowei Zhou Qifeng Chen Yujun Shen DiffM VGen 41 81 0 15 Aug 2023
DiffColor: Toward High Fidelity Text-Guided Image Colorization with Diffusion Models Jianxin Lin Peng Xiao Yijun Wang Rongsheng Zhang Xiangxiang Zeng DiffM 30 3 0 03 Aug 2023
Text-Guided Synthesis of Eulerian Cinemagraphs Aniruddha Mahapatra Aliaksandr Siarohin Hsin-Ying Lee Sergey Tulyakov Junchen Zhu DiffM VGen 19 21 0 06 Jul 2023