v1v2v3 (latest)

Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs

International Conference on Machine Learning (ICML), 2024

22 January 2024

ArXiv (abs)PDF HTML HuggingFace (31 upvotes)Github (1802★)

Papers citing "Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs"

50 / 139 papers shown

LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

236

24 Dec 2025

EditThinker: Unlocking Iterative Reasoning for Any Image Editor

...

270

05 Dec 2025

Synthetic Curriculum Reinforces Compositional Text-to-Image Generation

248

23 Nov 2025

Planning with Sketch-Guided Verification for Physics-Aware Video Generation

272

21 Nov 2025

Laytrol: Preserving Pretrained Knowledge in Layout Control for Multimodal Diffusion Transformers

330

11 Nov 2025

Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

...

443

19 Oct 2025

Seeing Through the Brain: New Insights from Decoding Visual Stimuli with fMRI

135

17 Oct 2025

DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models

225

16 Oct 2025

A Black-Box Debiasing Framework for Conditional Sampling

Han Cui

Jingbo Liu

13 Oct 2025

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

194

09 Oct 2025

Dragging with Geometry: From Pixels to Geometry-Guided Image Editing

167

30 Sep 2025

CO3: Contrasting Concepts Compose Better

Debottam Dutta

Jianchong Chen

Rajalaxmi Rajagopalan

Yu-Lin Wei

Romit Roy Choudhury

DiffM

138

30 Sep 2025

IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

161

30 Sep 2025

Stitch: Training-Free Position Control in Multimodal Diffusion Transformers

168

30 Sep 2025

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

323

25 Sep 2025

Embodied AI: From LLMs to World Models

375

24 Sep 2025

OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps

178

23 Sep 2025

Automated Prompt Generation for Creative and Counterfactual Text-to-image Synthesis

23 Sep 2025

Layout-Conditioned Autoregressive Text-to-Image Generation via Structured Masking

...

182

15 Sep 2025

PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting

...

478

04 Sep 2025

MEPG:Multi-Expert Planning and Generation for Compositionally-Rich Image Generation

Yuan Zhao

Lin Liu

DiffM MoE

223

04 Sep 2025

AniME: Adaptive Multi-Agent Planning for Long Animation Generation

...

26 Aug 2025

Instant Preference Alignment for Text-to-Image Diffusion Models

132

25 Aug 2025

Comp-X: On Defining an Interactive Learned Image Compression Paradigm With Expert-driven LLM Agent

155

21 Aug 2025

DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer

162

19 Aug 2025

Preacher: Paper-to-Video Agentic System

633

13 Aug 2025

Detail++: Training-Free Detail Enhancer for Text-to-Image Diffusion Models

225

23 Jul 2025

Inversion-DPO: Precise and Efficient Post-Training for Diffusion Models

400

14 Jul 2025

FreeAudio: Training-Free Timing Planning for Controllable Long-Form Text-to-Audio Generation

191

11 Jul 2025

PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework

...

339

12 Jun 2025

Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers

338

09 Jun 2025

SeedEdit 3.0: Fast and High-Quality Generative Image Editing

458

05 Jun 2025

ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions

409

03 Jun 2025

Image Generation from Contextually-Contradictory Prompts

242

02 Jun 2025

ComposeAnything: Composite Object Priors for Text-to-Image Generation

305

30 May 2025

A Survey of Generative Categories and Techniques in Multimodal Generative Models

437

29 May 2025

Rhetorical Text-to-Image Generation via Two-layer Diffusion Policy Optimization

270

28 May 2025

ISAC: Training-Free Instance-to-Semantic Attention Control for Improving Multi-Instance Generation

1.1K

27 May 2025

Be Decisive: Noise-Induced Layouts for Multi-Subject Generation

350

27 May 2025

Agentic 3D Scene Generation with Spatially Contextualized VLMs

375

26 May 2025

Affective Image Editing: Shaping Emotional Factors via Text Descriptions

203

24 May 2025

Creatively Upscaling Images with Global-Regional PriorsInternational Journal of Computer Vision (IJCV), 2025

425

22 May 2025

MMaDA: Multimodal Large Diffusion Language Models

525

152

21 May 2025

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

330

19 May 2025

Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image SynthesisComputer Vision and Pattern Recognition (CVPR), 2025

296

15 May 2025

MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image GenerationComputer Vision and Pattern Recognition (CVPR), 2025

1.2K

05 May 2025

Step1X-Edit: A Practical Framework for General Image Editing

...

782

221

24 Apr 2025

DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation

412

21 Apr 2025

Hierarchical and Step-Layer-Wise Tuning of Attention Specialty for Multi-Instance Synthesis in Diffusion Transformers

435

14 Apr 2025

Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization

393

11 Apr 2025