Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

Neural Information Processing Systems (NeurIPS), 2022

23 May 2022

Seyed Kamyar Seyed Ghasemipour

Burcu Karagol Ayan

S. S. Mahdavi

Raphael Gontijo-Lopes

David J Fleet

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding"

50 / 5,040 papers shown

ProxT2I: Efficient Reward-Guided Text-to-Image Generation via Proximal Diffusion

213

24 Nov 2025

LAA3D: A Benchmark of Detecting and Tracking Low-Altitude Aircraft in 3D Space

143

24 Nov 2025

Zero-Shot Video Deraining with Video Diffusion Models

148

23 Nov 2025

Uni-DAD: Unified Distillation and Adaptation of Diffusion Models for Few-step Few-shot Image Generation

23 Nov 2025

Synthetic Curriculum Reinforces Compositional Text-to-Image Generation

226

23 Nov 2025

ViMix-14M: A Curated Multi-Source Video-Text Dataset with Long-Form, High-Quality Captions and Crawl-Free Access

123

23 Nov 2025

MINDiff: Mask-Integrated Negative Attention for Controlling Overfitting in Text-to-Image Personalization

Seulgi Jeong

Jaeil Kim

DiffM

136

22 Nov 2025

UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

Tian Ye

Song Fei

Lei Zhu

22 Nov 2025

Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation

...

226

21 Nov 2025

Personalized Reward Modeling for Text-to-Image Generation

156

21 Nov 2025

EvDiff: High Quality Video with an Event Camera

184

21 Nov 2025

Boosting Predictive Performance on Tabular Data through Data Augmentation with Latent-Space Flow-Based Diffusion

Md. Tawfique Ihsan

Md. Rakibul Hasan Rafi

147

20 Nov 2025

SVG360: Multi-View SVG Generation with Geometric and Color Consistency from a Single SVG

Mengnan Jiang

Zhaolin Sun

Christian Franke

Michele Franco Adesso

Antonio Haas

Grace Li Zhang

3DGS

216

20 Nov 2025

PairHuman: A High-Fidelity Photographic Dataset for Customized Dual-Person GenerationInformation Fusion (Inf. Fusion), 2025

261

20 Nov 2025

PEPPER: Perception-Guided Perturbation for Robust Backdoor Defense in Text-to-Image Diffusion Models

168

20 Nov 2025

Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

245

20 Nov 2025

Towards Overcoming Data Scarcity in Nuclear Energy: A Study on Critical Heat Flux with Physics-consistent Conditional Diffusion Model

233

20 Nov 2025

UniHOI: Unified Human-Object Interaction Understanding via Unified Token Space

216

19 Nov 2025

SplitFlux: Learning to Decouple Content and Style from a Single Image

212

19 Nov 2025

Towards Deploying VLA without Fine-Tuning: Plug-and-Play Inference-Time VLA Policy Steering via Embodied Evolutionary Diffusion

18 Nov 2025

Coffee: Controllable Diffusion Fine-tuning

173

18 Nov 2025

Uni-Inter: Unifying 3D Human Motion Synthesis Across Diverse Interaction Contexts

179

17 Nov 2025

Infinite-Story: A Training-Free Consistent Text-to-Image Generation

111

17 Nov 2025

Unlocking the Forgery Detection Potential of Vanilla MLLMs: A Novel Training-Free Pipeline

160

17 Nov 2025

DriveLiDAR4D: Sequential and Controllable LiDAR Scene Generation for Autonomous Driving

291

17 Nov 2025

Free-Form Scene Editor: Enabling Multi-Round Object Manipulation like in a 3D Engine

167

17 Nov 2025

HiGFA: Hierarchical Guidance for Fine-grained Data Augmentation with Diffusion Models

696

16 Nov 2025

GeoMVD: Geometry-Enhanced Multi-View Generation Model Based on Geometric Information Extraction

310

15 Nov 2025

Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

...

Juan-Manuel Perez-Rua

105

15 Nov 2025

Selecting Fine-Tuning Examples by Quizzing VLMs

Tenghao Ji

Eytan Adar

DiffM

120

15 Nov 2025

Fair Incentives for Early Arrival in 0-1 Cooperative Games

Yaoxin Ge

Yao Zhang

Dengji Zhao

111

14 Nov 2025

Prompt Triage: Structured Optimization Enhances Vision-Language Model Performance on Medical Imaging Benchmarks

282

14 Nov 2025

Laytrol: Preserving Pretrained Knowledge in Layout Control for Multimodal Diffusion Transformers

288

11 Nov 2025

Towards Fine-Grained Interpretability: Counterfactual Explanations for Misclassification with Saliency PartitionComputer Vision and Pattern Recognition (CVPR), 2025

461

11 Nov 2025

Top2Ground: A Height-Aware Dual Conditioning Diffusion Model for Robust Aerial-to-Ground View Generation

Jae Joong Lee

Bedrich Benes

DiffM

136

11 Nov 2025

Beyond Randomness: Understand the Order of the Noise in Diffusion

316

11 Nov 2025

LiteUpdate: A Lightweight Framework for Updating AI-Generated Image Detectors

190

10 Nov 2025

Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

...

213

10 Nov 2025

Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance

Kwanyoung Kim

DiffM

216

10 Nov 2025

A Two-Stage System for Layout-Controlled Image Generation using Large Language Models and Diffusion Models

593

10 Nov 2025

Test-Time Iterative Error Correction for Efficient Diffusion Models

Yunshan Zhong

Yanwei Qi

Yuxin Zhang

161

09 Nov 2025

MALeR: Improving Compositional Fidelity in Layout-Guided Generation

135

08 Nov 2025

FreeControl: Efficient, Training-Free Structural Control via One-Step Attention Extraction

132

07 Nov 2025

SAD-Flower: Flow Matching for Safe, Admissible, and Dynamically Consistent Planning

189

07 Nov 2025

Personalized Image Editing in Text-to-Image Diffusion Models via Collaborative Direct Preference Optimization

06 Nov 2025

Finetuning-Free Personalization of Text to Image Generation via Hypernetworks

160

05 Nov 2025

EVLP:Learning Unified Embodied Vision-Language Planner with Reinforced Supervised Fine-Tuning

100

03 Nov 2025

NSYNC: Negative Synthetic Image Generation for Contrastive Training to Improve Stylized Text-To-Image Translation

346

03 Nov 2025

XFlowMP: Task-Conditioned Motion Fields for Generative Robot Planning with Schrodinger Bridges

Khang Nguyen

Minh Nhat Vu

02 Nov 2025

Enhancing Frequency Forgery Clues for Diffusion-Generated Image Detection

185

01 Nov 2025