Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

Neural Information Processing Systems (NeurIPS), 2022

23 May 2022

Seyed Kamyar Seyed Ghasemipour

Burcu Karagol Ayan

S. S. Mahdavi

Raphael Gontijo-Lopes

David J Fleet

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding"

50 / 5,040 papers shown

Refaçade: Editing Object with Given Reference Texture

178

04 Dec 2025

PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design

03 Dec 2025

RNNs perform task computations by dynamically warping neural representations

Arthur Pellegrino

Angus Chadwick

03 Dec 2025

DirectDrag: High-Fidelity, Mask-Free, Prompt-Free Drag-based Image Editing via Readout-Guided Feature Alignment

133

03 Dec 2025

GeoVideo: Introducing Geometric Regularization into Video Generation Model

459

03 Dec 2025

Towards Irreversible Machine Unlearning for Diffusion Models

168

03 Dec 2025

Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence

228

03 Dec 2025

Stable Signer: Hierarchical Sign Language Generative Model

357

03 Dec 2025

U4D: Uncertainty-Aware 4D World Modeling from LiDAR Sequences

138

02 Dec 2025

Video Diffusion Models Excel at Tracking Similar-Looking Objects Without Supervision

236

02 Dec 2025

Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

252

02 Dec 2025

Distill, Forget, Repeat: A Framework for Continual Unlearning in Text-to-Image Diffusion Models

379

02 Dec 2025

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling

02 Dec 2025

Understanding and Harnessing Sparsity in Unified Multimodal Models

213

02 Dec 2025

OmniPerson: Unified Identity-Preserving Pedestrian Generation

218

02 Dec 2025

TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

...

156

01 Dec 2025

PhyCustom: Towards Realistic Physical Customization in Text-to-Image Generation

01 Dec 2025

Generative Editing in the Joint Vision-Language Space for Zero-Shot Composed Image Retrieval

147

01 Dec 2025

CoatFusion: Controllable Material Coating in Images

148

01 Dec 2025

Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights

166

01 Dec 2025

Deep Unsupervised Anomaly Detection in Brain Imaging: Large-Scale Benchmarking and Bias Analysis

Alexander Frötscher

Christian F. Baumgartner

T. Wolfers

OOD

235

01 Dec 2025

FineGRAIN: Evaluating Failure Modes of Text-to-Image Models with Vision Language Model Judges

243

01 Dec 2025

Relightable Holoported Characters: Capturing and Relighting Dynamic Human Performance from Sparse Views

245

29 Nov 2025

CC-FMO: Camera-Conditioned Zero-Shot Single Image to 3D Scene Generation with Foundation Model Orchestration

192

29 Nov 2025

TARFVAE: Efficient One-Step Generative Time Series Forecasting via TARFLOW based VAE

120

28 Nov 2025

CoordSpeaker: Exploiting Gesture Captioning for Coordinated Caption-Empowered Co-Speech Gesture Generation

225

28 Nov 2025

One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfer

126

28 Nov 2025

GOATex: Geometry & Occlusion-Aware Texturing

102

28 Nov 2025

REVEAL: Reasoning-enhanced Forensic Evidence Analysis for Explainable AI-generated Image Detection

...

134

28 Nov 2025

LC4-DViT: Land-cover Creation for Land-cover Classification with Deformable Vision Transformer

27 Nov 2025

Convergence Dynamics of Over-Parameterized Score Matching for a Single Gaussian

148

27 Nov 2025

AI killed the video star. Audio-driven diffusion model for expressive talking head generation

27 Nov 2025

Generative Anchored Fields: Controlled Data Generation via Emergent Velocity Fields and Transport Algebra

Deressa Wodajo Deressa

Hannes Mareen

Peter Lambert

Glenn Van Wallendael

27 Nov 2025

Ar2Can: An Architect and an Artist Leveraging a Canvas for Multi-Human Generation

27 Nov 2025

LaGen: Towards Autoregressive LiDAR Scene Generation

292

26 Nov 2025

Canvas-to-Image: Compositional Image Generation with Multimodal Controls

200

26 Nov 2025

MUSE: Manipulating Unified Framework for Synthesizing Emotions in Images via Test-Time Optimization

547

26 Nov 2025

ShapeGen: Towards High-Quality 3D Shape Synthesis

199

25 Nov 2025

Test-Time Alignment of Text-to-Image Diffusion Models via Null-Text Embedding Optimisation

Taehoon Kim

Henry Gouk

Timothy M. Hospedales

198

25 Nov 2025

HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning

351

25 Nov 2025

PRADA: Probability-Ratio-Based Attribution and Detection of Autoregressive-Generated Images

191

25 Nov 2025

Low-Resolution Editing is All You Need for High-Resolution Editing

223

25 Nov 2025

Image Diffusion Models Exhibit Emergent Temporal Propagation in Videos

187

25 Nov 2025

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

...

354

25 Nov 2025

Now You See It, Now You Don't - Instant Concept Erasure for Safe Text-to-Image and Video Generation

266

24 Nov 2025

Demystifying Diffusion Objectives: Reweighted Losses are Better Variational Bounds

Jiaxin Shi

Michalis K. Titsias

DiffM

270

24 Nov 2025

Learning What to Trust: Bayesian Prior-Guided Optimization for Visual Generation

103

24 Nov 2025

A Self-Conditioned Representation Guided Diffusion Model for Realistic Text-to-LiDAR Scene Generation

187

24 Nov 2025

LAA3D: A Benchmark of Detecting and Tracking Low-Altitude Aircraft in 3D Space

143

24 Nov 2025

DiP: Taming Diffusion Models in Pixel Space

295

24 Nov 2025