LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models

23 May 2023

Boyi Li

Papers citing "LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models"

22 / 122 papers shown

Title
GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning Jiaxi Lv Yi Huang Mingfu Yan Jiancheng Huang Jianzhuang Liu Yifan Liu Yafei Wen Xiaoxin Chen Shifeng Chen VGen DiffM 23 23 0 21 Nov 2023
Trustworthy Large Models in Vision: A Survey Ziyan Guo Li Xu Jun Liu MU 56 0 0 16 Nov 2023
DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning Abhaysinh Zala Han Lin Jaemin Cho Mohit Bansal 24 12 0 18 Oct 2023
LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts Hanan Gani Shariq Farooq Bhat Muzammal Naseer Salman Khan Peter Wonka DiffM 36 37 0 16 Oct 2023
Real-Fake: Effective Training Data Synthesis Through Distribution Matching Jianhao Yuan Jie Zhang Shuyang Sun Philip H. S. Torr Bo-Lu Zhao 18 21 0 16 Oct 2023
R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation Jiayu Xiao Henglei Lv Liang Li Shuhui Wang Qingming Huang DiffM 24 20 0 13 Oct 2023
Compressing LLMs: The Truth is Rarely Pure and Never Simple Ajay Jaiswal Zhe Gan Xianzhi Du Bowen Zhang Zhangyang Wang Yinfei Yang MQ 31 45 0 02 Oct 2023
LLM-grounded Video Diffusion Models Long Lian Baifeng Shi Semih Yavuz Ye Liu Boyi Li DiffM 15 53 0 29 Sep 2023
Guiding Instruction-based Image Editing via Multimodal Large Language Models Johannes Frey Wenze Hu Xianzhi Du William Yang Wang Yinfei Yang Zhe Gan 30 86 0 29 Sep 2023
DreamLLM: Synergistic Multimodal Comprehension and Creation Runpei Dong Chunrui Han Yuang Peng Zekun Qi Zheng Ge ... Hao-Ran Wei Xiangwen Kong Xiangyu Zhang Kaisheng Ma Li Yi MLLM 28 168 0 20 Sep 2023
A Survey of Diffusion Based Image Generation Models: Issues and Their Solutions Tianyi Zhang Zheng Wang Jin Huang M. M. Tasnim Wei Shi VLM 11 21 0 25 Aug 2023
BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained Diffusion Jinheng Xie Yuexiang Li Yawen Huang Haozhe Liu Wentian Zhang Yefeng Zheng Mike Zheng Shou DiffM 20 192 0 20 Jul 2023
Counting Guidance for High Fidelity Text-to-Image Synthesis Wonjune Kang Kevin Galim H. Koo Nam Ik Cho DiffM 24 7 0 30 Jun 2023
Grounded Text-to-Image Synthesis with Attention Refocusing Quynh Phung Songwei Ge Jia-Bin Huang DiffM 18 104 0 08 Jun 2023
On the Design Fundamentals of Diffusion Models: A Survey Ziyi Chang G. Koulieris Hubert P. H. Shum DiffM 27 50 0 07 Jun 2023
Training-Free Layout Control with Cross-Attention Guidance Minghao Chen Iro Laina Andrea Vedaldi DiffM 124 217 0 06 Apr 2023
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 385 4,010 0 28 Jan 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022
Grounding Natural Language Instructions: Can Large Language Models Capture Spatial Information? Julia Rozanova Deborah Ferreira K. Dubba Weiwei Cheng Dell Zhang André Freitas LM&Ro 28 8 0 17 Sep 2021
Simple multi-dataset detection Xingyi Zhou V. Koltun Philipp Krahenbuhl ObjD 219 110 0 25 Feb 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,735 0 24 Feb 2021
Image Generation from Scene Graphs Justin Johnson Agrim Gupta Li Fei-Fei GNN 211 809 0 04 Apr 2018