v1v2v3 (latest)

A Simple Approach to Unifying Diffusion-based Conditional Generation

International Conference on Learning Representations (ICLR), 2024

15 October 2024

Ding Wang

Charles Herrmann

Kelvin C.K. Chan

Yinxiao Li

ArXiv (abs)PDF HTML Github

Papers citing "A Simple Approach to Unifying Diffusion-based Conditional Generation"

50 / 53 papers shown

CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion

...

282

26 Nov 2025

More Than Generation: Unifying Generation and Depth Estimation via Text-to-Image Diffusion Models

592

27 Oct 2025

Unlocking the Potential of Diffusion Priors in Blind Face Restoration

154

12 Aug 2025

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

836

01 May 2025

JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation

206

08 Jul 2024

Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

Boyuan Chen

552

417

01 Jul 2024

560

1,481

13 Jun 2024

GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single ImageEuropean Conference on Computer Vision (ECCV), 2024

Yuexin Ma

Shaojie Shen

418

273

18 Mar 2024

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

...

Hsin-Ying Lee

Ming-Hsuan Yang

492

387

29 Feb 2024

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

892

1,689

19 Jan 2024

Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model

Charles Herrmann

David J. Fleet

301

20 Dec 2023

LooseControl: Lifting ControlNet for Generalized Depth ConditioningInternational Conference on Computer Graphics and Interactive Techniques (SIGGRAPH), 2023

Shariq Farooq Bhat

Niloy J. Mitra

Peter Wonka

AI4CE DiffM

288

05 Dec 2023

Readout Guidance: Learning Control from Diffusion FeaturesComputer Vision and Pattern Recognition (CVPR), 2023

Aleksander Holynski

478

04 Dec 2023

Repurposing Diffusion-Based Image Generators for Monocular Depth EstimationComputer Vision and Pattern Recognition (CVPR), 2023

Konrad Schindler

559

370

04 Dec 2023

UniGS: Unified Representation for Image Generation and SegmentationComputer Vision and Pattern Recognition (CVPR), 2023

Ming-Hsuan Yang

309

04 Dec 2023

HyperHuman: Hyper-Realistic Human Generation with Latent Structural DiffusionInternational Conference on Learning Representations (ICLR), 2023

Xian Liu

Dahua Lin

Xihui Liu

Ziwei Liu

Sergey Tulyakov

412

12 Oct 2023

JointNet: Extending Text-to-Image Diffusion for Dense Distribution ModelingInternational Conference on Learning Representations (ICLR), 2023

Jingyang Zhang

267

10 Oct 2023

IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

449

1,487

13 Aug 2023

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific TuningInternational Conference on Learning Representations (ICLR), 2023

Yu Qiao

1.1K

1,456

10 Jul 2023

The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth EstimationNeural Information Processing Systems (NeurIPS), 2023

Charles Herrmann

David J. Fleet

431

135

02 Jun 2023

StyleDrop: Text-to-Image Generation in Any Style

Nataniel Ruiz

...

Yuanzhen Li

Yuan Hao

Irfan Essa

Michael Rubinstein

Dilip Krishnan

325

225

01 Jun 2023

Diffusion Model for Dense MatchingInternational Conference on Learning Representations (ICLR), 2023

328

30 May 2023

Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion ModelsNeural Information Processing Systems (NeurIPS), 2023

Jianmin Bao

Lu Yuan

493

435

25 May 2023

LDM3D: Latent Diffusion Model for 3D

Gabriela Ben-Melech Stan

...

384

18 May 2023

Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion ModelsComputer Vision and Pattern Recognition (CVPR), 2023

Xiaolong Wang

977

432

08 Mar 2023

Unleashing Text-to-Image Diffusion Models for Visual PerceptionIEEE International Conference on Computer Vision (ICCV), 2023

Wenliang Zhao

Jie Zhou

1.1K

322

03 Mar 2023

ZoeDepth: Zero-shot Transfer by Combining Relative and Metric Depth

696

868

23 Feb 2023

Composer: Creative and Controllable Image Synthesis with Composable ConditionsInternational Conference on Machine Learning (ICML), 2023

Jingren Zhou

543

371

20 Feb 2023

T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion ModelsAAAI Conference on Artificial Intelligence (AAAI), 2023

Ying Shan

656

1,603

16 Feb 2023

Adding Conditional Control to Text-to-Image Diffusion ModelsIEEE International Conference on Computer Vision (ICCV), 2023

1.2K

6,666

10 Feb 2023

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language ModelsInternational Conference on Machine Learning (ICML), 2023

Silvio Savarese

1.6K

7,784

30 Jan 2023

DAG: Depth-Aware Guidance with Denoising Diffusion Probabilistic Models

344

17 Dec 2022

Plug-and-Play Diffusion Features for Text-Driven Image-to-Image TranslationComputer Vision and Pattern Recognition (CVPR), 2022

493

1,002

22 Nov 2022

DiffEdit: Diffusion-based semantic image editing with mask guidanceInternational Conference on Learning Representations (ICLR), 2022

606

725

20 Oct 2022

Imagen Video: High Definition Video Generation with Diffusion Models

Ruiqi Gao

...

David J. Fleet

579

1,987

05 Oct 2022

Classifier-Free Diffusion Guidance

Jonathan Ho

Tim Salimans

FaML

710

5,964

26 Jul 2022

Elucidating the Design Space of Diffusion-Based Generative ModelsNeural Information Processing Systems (NeurIPS), 2022

1.1K

3,189

01 Jun 2022

Hierarchical Text-Conditional Image Generation with CLIP Latents

1.5K

8,816

13 Apr 2022

Video Diffusion ModelsNeural Information Processing Systems (NeurIPS), 2022

David J. Fleet

1.1K

2,472

07 Apr 2022

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and GenerationInternational Conference on Machine Learning (ICML), 2022

1.5K

6,390

28 Jan 2022

High-Resolution Image Synthesis with Latent Diffusion ModelsComputer Vision and Pattern Recognition (CVPR), 2021

4.8K

23,580

20 Dec 2021

SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations

Jiajun Wu

Jun-Yan Zhu

Stefano Ermon

DiffM

866

2,070

02 Aug 2021

Vision Transformers for Dense PredictionIEEE International Conference on Computer Vision (ICCV), 2021

625

2,617

24 Mar 2021

Score-Based Generative Modeling through Stochastic Differential EquationsInternational Conference on Learning Representations (ICLR), 2020

Yang Song

Jascha Narain Sohl-Dickstein

3.7K

10,034

26 Nov 2020

Denoising Diffusion Implicit ModelsInternational Conference on Learning Representations (ICLR), 2020

1.9K

11,480

06 Oct 2020

Denoising Diffusion Probabilistic Models

Jonathan Ho

Ajay Jain

Pieter Abbeel

DiffM

6.2K

29,328

19 Jun 2020

Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset TransferIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2019

Konrad Schindler

879

2,439

02 Jul 2019

OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

1.7K

5,457

18 Dec 2018

ScanNet: Richly-annotated 3D Reconstructions of Indoor ScenesComputer Vision and Pattern Recognition (CVPR), 2017

Matthias Nießner

1.6K

5,325

14 Feb 2017

U-Net: Convolutional Networks for Biomedical Image Segmentation

Olaf Ronneberger

Philipp Fischer

Thomas Brox

SSeg 3DV

3.9K

93,751

18 May 2015