Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

Neural Information Processing Systems (NeurIPS), 2022

23 May 2022

Seyed Kamyar Seyed Ghasemipour

Burcu Karagol Ayan

S. S. Mahdavi

Raphael Gontijo-Lopes

David J Fleet

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding"

50 / 5,056 papers shown

Maestro: Self-Improving Text-to-Image Generation via Agent Orchestration

310

12 Sep 2025

Flow Straight and Fast in Hilbert Space: Functional Rectified Flow

Jianxin Zhang

Clayton Scott

192

12 Sep 2025

InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis

152

12 Sep 2025

T2Bs: Text-to-Character Blendshapes via Video Generation

...

249

12 Sep 2025

Compute Only 16 Tokens in One Timestep: Accelerating Diffusion Transformers with Cluster-Driven Feature Caching

186

12 Sep 2025

A Discrepancy-Based Perspective on Dataset Condensation

Tong Chen

Raghavendra Selvan

304

12 Sep 2025

MagicMirror: A Large-Scale Dataset and Benchmark for Fine-Grained Artifacts Assessment in Text-to-Image Generation

254

12 Sep 2025

Composable Score-based Graph Diffusion Model for Multi-Conditional Molecular Generation

284

11 Sep 2025

Bridging the Gap Between Ideal and Real-world Evaluation: Benchmarking AI-Generated Image Detection in Challenging Scenarios

190

11 Sep 2025

Region-Wise Correspondence Prediction between Manga Line Art Images

226

11 Sep 2025

Discovering Divergent Representations between Text-to-Image Models

172

10 Sep 2025

Calibrating MLLM-as-a-judge via Multimodal Bayesian Prompt Ensembles

212

10 Sep 2025

ForTIFAI: Fending Off Recursive Training Induced Failure for AI Model Collapse

Soheil Zibakhsh Shabgahi

Pedram Aghazadeh

Azalia Mirhoseini

F. Koushanfar

318

10 Sep 2025

Universal Few-Shot Spatial Control for Diffusion Models

179

09 Sep 2025

Semantic Watermarking Reinvented: Enhancing Robustness and Generation Quality with Fourier Integrity

Sung Ju Lee

Nam Ik Cho

AAML

279

09 Sep 2025

UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward

133

08 Sep 2025

TIDE: Achieving Balanced Subject-Driven Image Generation via Target-Instructed Diffusion Enhancement

181

08 Sep 2025

Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data

Nithin Gopalakrishnan Nair

124

08 Sep 2025

DreamAudio: Customized Text-to-Audio Generation with Diffusion Models

180

07 Sep 2025

Learning in ImaginationLand: Omnidirectional Policies through 3D Generative Models (OP-Gen)

Yifei Ren

Edward Johns

LM&Ro

219

07 Sep 2025

Tell-Tale Watermarks for Explanatory Reasoning in Synthetic Media Forensics

Ching-Chun Chang

Isao Echizen

WIGM

239

06 Sep 2025

SuMa: A Subspace Mapping Approach for Robust and Effective Concept Erasure in Text-to-Image Diffusion Models

K. Nguyen

Anh Tran

Cuong Pham

172

06 Sep 2025

A Scalable Attention-Based Approach for Image-to-3D Texture Mapping

148

05 Sep 2025

UniView: Enhancing Novel View Synthesis From A Single Image By Unifying Reference Features

180

05 Sep 2025

SynGen-Vision: Synthetic Data Generation for training industrial vision models

Alpana Dubey

Suma Mani Kuriakose

Nitish Bhardwaj

143

05 Sep 2025

From Editor to Dense Geometry Estimator

318

04 Sep 2025

MEPG:Multi-Expert Planning and Generation for Compositionally-Rich Image Generation

Yuan Zhao

Lin Liu

DiffM MoE

242

04 Sep 2025

Wavelet Fourier Diffuser: Frequency-Aware Diffusion Model for Reinforcement Learning

Yifu Luo

Yongzhe Chang

Xueqian Wang

187

04 Sep 2025

The Telephone Game: Evaluating Semantic Drift in Unified Models

233

04 Sep 2025

PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting

...

543

04 Sep 2025

Inpaint4Drag: Repurposing Inpainting Models for Drag-Based Image Editing via Bidirectional Warping

Jingyi Lu

Kai Han

DiffM

227

04 Sep 2025

LuxDiT: Lighting Estimation with Video Diffusion Transformer

170

03 Sep 2025

Human Preference-Aligned Concept Customization Benchmark via Decomposed Evaluation

224

03 Sep 2025

TeRA: Rethinking Text-driven Realistic 3D Avatar Generation

214

02 Sep 2025

Understanding Space Is Rocket Science -- Only Top Reasoning Models Can Solve Spatial Understanding Tasks

257

02 Sep 2025

Palette Aligned Image Diffusion

142

02 Sep 2025

DynaMind: Reconstructing Dynamic Visual Scenes from EEG by Aligning Temporal Dynamics and Multimodal Semantics to Guided Diffusion

140

01 Sep 2025

FICGen: Frequency-Inspired Contextual Disentanglement for Layout-driven Degraded Image Generation

165

01 Sep 2025

CompSlider: Compositional Slider for Disentangled Multiple-Attribute Image Generation

267

31 Aug 2025

Partially Functional Dynamic Backdoor Diffusion-based Causal Model

201

30 Aug 2025

Category-level Text-to-Image Retrieval Improved: Bridging the Domain Gap with Diffusion Models and Vision Encoders

122

29 Aug 2025

FLORA: Efficient Synthetic Data Generation for Object Detection in Low-Data Regimes via finetuning Flux LoRA

Alvaro Patricio

Atabak Dehban

Rodrigo Ventura

233

29 Aug 2025

Revisiting Deepfake Detection: Chronological Continual Learning and the Limits of Generalization

116

29 Aug 2025

Attacks on Approximate Caches in Text-to-Image Diffusion Models

213

28 Aug 2025

Audio-Guided Visual Editing with Complex Multi-Modal Prompts

169

28 Aug 2025

Reusing Computation in Text-to-Image Diffusion for Efficient Generation of Image Sets

170

28 Aug 2025

Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

282

28 Aug 2025

FastMesh: Efficient Artistic Mesh Generation via Component Decoupling

283

26 Aug 2025

VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space

263

26 Aug 2025

Generative AI in Map-Making: A Technical Exploration and Its Implications for Cartographers

216

26 Aug 2025