Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

Neural Information Processing Systems (NeurIPS), 2022

23 May 2022

Seyed Kamyar Seyed Ghasemipour

Burcu Karagol Ayan

S. S. Mahdavi

Raphael Gontijo-Lopes

David J Fleet

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding"

50 / 5,041 papers shown

Refaçade: Editing Object with Given Reference Texture

180

04 Dec 2025

PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design

101

03 Dec 2025

RNNs perform task computations by dynamically warping neural representations

Arthur Pellegrino

Angus Chadwick

03 Dec 2025

DirectDrag: High-Fidelity, Mask-Free, Prompt-Free Drag-based Image Editing via Readout-Guided Feature Alignment

133

03 Dec 2025

GeoVideo: Introducing Geometric Regularization into Video Generation Model

459

03 Dec 2025

Towards Irreversible Machine Unlearning for Diffusion Models

170

03 Dec 2025

Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence

228

03 Dec 2025

Stable Signer: Hierarchical Sign Language Generative Model

367

03 Dec 2025

U4D: Uncertainty-Aware 4D World Modeling from LiDAR Sequences

138

02 Dec 2025

Video Diffusion Models Excel at Tracking Similar-Looking Objects Without Supervision

236

02 Dec 2025

Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

253

02 Dec 2025

Distill, Forget, Repeat: A Framework for Continual Unlearning in Text-to-Image Diffusion Models

379

02 Dec 2025

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling

02 Dec 2025

Understanding and Harnessing Sparsity in Unified Multimodal Models

213

02 Dec 2025

OmniPerson: Unified Identity-Preserving Pedestrian Generation

222

02 Dec 2025

TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

...

162

01 Dec 2025

PhyCustom: Towards Realistic Physical Customization in Text-to-Image Generation

01 Dec 2025

Generative Editing in the Joint Vision-Language Space for Zero-Shot Composed Image Retrieval

154

01 Dec 2025

CoatFusion: Controllable Material Coating in Images

148

01 Dec 2025

Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights

177

01 Dec 2025

Deep Unsupervised Anomaly Detection in Brain Imaging: Large-Scale Benchmarking and Bias Analysis

Alexander Frötscher

Christian F. Baumgartner

T. Wolfers

OOD

235

01 Dec 2025

FineGRAIN: Evaluating Failure Modes of Text-to-Image Models with Vision Language Model Judges

247

01 Dec 2025

Relightable Holoported Characters: Capturing and Relighting Dynamic Human Performance from Sparse Views

247

29 Nov 2025

CC-FMO: Camera-Conditioned Zero-Shot Single Image to 3D Scene Generation with Foundation Model Orchestration

196

29 Nov 2025

TARFVAE: Efficient One-Step Generative Time Series Forecasting via TARFLOW based VAE

126

28 Nov 2025

CoordSpeaker: Exploiting Gesture Captioning for Coordinated Caption-Empowered Co-Speech Gesture Generation

236

28 Nov 2025

One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfer

128

28 Nov 2025

GOATex: Geometry & Occlusion-Aware Texturing

104

28 Nov 2025

REVEAL: Reasoning-enhanced Forensic Evidence Analysis for Explainable AI-generated Image Detection

...

134

28 Nov 2025

LC4-DViT: Land-cover Creation for Land-cover Classification with Deformable Vision Transformer

27 Nov 2025

Convergence Dynamics of Over-Parameterized Score Matching for a Single Gaussian

156

27 Nov 2025

AI killed the video star. Audio-driven diffusion model for expressive talking head generation

27 Nov 2025

Generative Anchored Fields: Controlled Data Generation via Emergent Velocity Fields and Transport Algebra

Deressa Wodajo Deressa

Hannes Mareen

Peter Lambert

Glenn Van Wallendael

27 Nov 2025

Ar2Can: An Architect and an Artist Leveraging a Canvas for Multi-Human Generation

27 Nov 2025

LaGen: Towards Autoregressive LiDAR Scene Generation

293

26 Nov 2025

Canvas-to-Image: Compositional Image Generation with Multimodal Controls

203

26 Nov 2025

MUSE: Manipulating Unified Framework for Synthesizing Emotions in Images via Test-Time Optimization

547

26 Nov 2025

ShapeGen: Towards High-Quality 3D Shape Synthesis

200

25 Nov 2025

Test-Time Alignment of Text-to-Image Diffusion Models via Null-Text Embedding Optimisation

Taehoon Kim

Henry Gouk

Timothy M. Hospedales

198

25 Nov 2025

HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning

354

25 Nov 2025

PRADA: Probability-Ratio-Based Attribution and Detection of Autoregressive-Generated Images

196

25 Nov 2025

Low-Resolution Editing is All You Need for High-Resolution Editing

224

25 Nov 2025

Image Diffusion Models Exhibit Emergent Temporal Propagation in Videos

187

25 Nov 2025

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

...

358

25 Nov 2025

Now You See It, Now You Don't - Instant Concept Erasure for Safe Text-to-Image and Video Generation

267

24 Nov 2025

Demystifying Diffusion Objectives: Reweighted Losses are Better Variational Bounds

Jiaxin Shi

Michalis K. Titsias

DiffM

270

24 Nov 2025

Learning What to Trust: Bayesian Prior-Guided Optimization for Visual Generation

104

24 Nov 2025

A Self-Conditioned Representation Guided Diffusion Model for Realistic Text-to-LiDAR Scene Generation

190

24 Nov 2025

LAA3D: A Benchmark of Detecting and Tracking Low-Altitude Aircraft in 3D Space

147

24 Nov 2025

DiP: Taming Diffusion Models in Pixel Space

298

24 Nov 2025