v1v2 (latest)

InstructPix2Pix: Learning to Follow Image Editing Instructions

Computer Vision and Pattern Recognition (CVPR), 2022

17 November 2022

Tim Brooks

Aleksander Holynski

Alexei A. Efros

DiffM

ArXiv (abs)PDF HTML HuggingFace (4 upvotes)

Papers citing "InstructPix2Pix: Learning to Follow Image Editing Instructions"

50 / 1,733 papers shown

HyperStyle3D: Text-Guided 3D Portrait Stylization via Hypernetworks

208

19 Apr 2023

Visual Instruction TuningNeural Information Processing Systems (NeurIPS), 2023

1.2K

7,615

17 Apr 2023

Delta Denoising ScoreIEEE International Conference on Computer Vision (ICCV), 2023

Amir Hertz

Kfir Aberman

Daniel Cohen-Or

DiffM

281

118

14 Apr 2023

One-Shot Stylization for Full-Body Human Images

Aiyu Cui

Svetlana Lazebnik

3DH

241

14 Apr 2023

Expressive Text-to-Image Generation with Rich TextIEEE International Conference on Computer Vision (ICCV), 2023

Jun-Yan Zhu

482

13 Apr 2023

Segment Everything Everywhere All at OnceNeural Information Processing Systems (NeurIPS), 2023

Jianwei Yang

433

683

13 Apr 2023

An Edit Friendly DDPM Noise Space: Inversion and ManipulationsComputer Vision and Pattern Recognition (CVPR), 2023

Inbar Huberman-Spiegelglas

Vladimir Kulikov

T. Michaeli

DiffM

416

239

12 Apr 2023

DreamPose: Fashion Image-to-Video Synthesis via Stable DiffusionIEEE International Conference on Computer Vision (ICCV), 2023

J. Karras

Aleksander Holynski

Ting-Chun Wang

Ira Kemelmacher-Shlizerman

DiffM VGen

363

205

12 Apr 2023

Improving Diffusion Models for Scene Text Editing with Dual Encoders

Zhifei Zhang

220

12 Apr 2023

Re-imagine the Negative Prompt Algorithm: Transform 2D Diffusion into 3D, alleviate Janus problem and Beyond

Mohammadreza Armandpour

A. Sadeghian

Huangjie Zheng

Amir Sadeghian

Mingyuan Zhou

DiffM

406

148

11 Apr 2023

Leveraging Neural Representations for Audio Manipulation

Scott H. Hawley

C. Steinmetz

111

10 Apr 2023

Towards Real-time Text-driven Image Manipulation with Unconditional Diffusion Models

272

10 Apr 2023

InstantBooth: Personalized Text-to-Image Generation without Test-Time FinetuningComputer Vision and Pattern Recognition (CVPR), 2023

Jing Shi

Wei Xiong

Zhe Lin

H. J. Jung

DiffM

367

372

06 Apr 2023

Inst-Inpaint: Instructing to Remove Objects with Diffusion Models

310

06 Apr 2023

Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models

231

124

05 Apr 2023

AUDIT: Audio Editing by Following Instructions with Latent Diffusion ModelsNeural Information Processing Systems (NeurIPS), 2023

Yuancheng Wang

Jiang Bian

333

03 Apr 2023

Subject-driven Text-to-Image Generation via Apprenticeship LearningNeural Information Processing Systems (NeurIPS), 2023

922

232

01 Apr 2023

Going Beyond Nouns With Vision & Language Models Using Synthetic DataIEEE International Conference on Computer Vision (ICCV), 2023

Paola Cascante-Bonilla

...

468

30 Mar 2023

PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image EditorComputer Vision and Pattern Recognition (CVPR), 2023

294

30 Mar 2023

MDP: A Generalized Framework for Text-Guided Image Editing by Manipulating the Diffusion Path

258

29 Mar 2023

Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion

192

28 Mar 2023

The Stable Signature: Rooting Watermarks in Latent Diffusion ModelsIEEE International Conference on Computer Vision (ICCV), 2023

Pierre Fernandez

335

312

27 Mar 2023

Training-free Content Injection using h-space in Diffusion ModelsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

279

27 Mar 2023

Guiding AI-Generated Digital Content with Wireless PerceptionIEEE wireless communications (IEEE Wireless Commun.), 2023

Dusit Niyato

113

26 Mar 2023

Human Preference Score: Better Aligning Text-to-Image Models with Human PreferenceIEEE International Conference on Computer Vision (ICCV), 2023

Keqiang Sun

245

266

25 Mar 2023

DreamBooth3D: Subject-Driven Text-to-3D GenerationIEEE International Conference on Computer Vision (ICCV), 2023

Nataniel Ruiz

...

Kfir Aberman

Michael Rubinstein

Jonathan T. Barron

Yuanzhen Li

Varun Jampani

DiffM

319

268

23 Mar 2023

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video GeneratorsIEEE International Conference on Computer Vision (ICCV), 2023

311

739

23 Mar 2023

Instruct-NeRF2NeRF: Editing 3D Scenes with InstructionsIEEE International Conference on Computer Vision (ICCV), 2023

Aleksander Holynski

431

496

22 Mar 2023

Pix2Video: Video Editing using Image DiffusionIEEE International Conference on Computer Vision (ICCV), 2023

Duygu Ceylan

C. Huang

Niloy J. Mitra

DiffM VGen

416

340

22 Mar 2023

LD-ZNet: A Latent Diffusion Approach for Text-Based Image SegmentationIEEE International Conference on Computer Vision (ICCV), 2023

304

22 Mar 2023

Vox-E: Text-guided Voxel Editing of 3D ObjectsIEEE International Conference on Computer Vision (ICCV), 2023

351

107

21 Mar 2023

Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image ModelsIEEE International Conference on Computer Vision (ICCV), 2023

Matthias Nießner

503

243

21 Mar 2023

CompoDiff: Versatile Composed Image Retrieval With Latent Diffusion

553

21 Mar 2023

Zero-1-to-3: Zero-shot One Image to 3D ObjectIEEE International Conference on Computer Vision (ICCV), 2023

Carl Vondrick

401

1,497

20 Mar 2023

Localizing Object-level Shape Variations with Text-to-Image Diffusion ModelsIEEE International Conference on Computer Vision (ICCV), 2023

Daniel Cohen-Or

409

144

20 Mar 2023

SVDiff: Compact Parameter Space for Diffusion Fine-TuningIEEE International Conference on Computer Vision (ICCV), 2023

Feng Yang

668

371

20 Mar 2023

DialogPaint: A Dialog-based Image Editing Model

Jingxuan Wei

Shiyu Wu

Xin Jiang

Yequan Wang

KELM DiffM

202

17 Mar 2023

GlueGen: Plug and Play Multi-modal Encoders for X-to-image GenerationIEEE International Conference on Computer Vision (ICCV), 2023

Ran Xu

387

17 Mar 2023

HIVE: Harnessing Human Feedback for Instructional Visual EditingComputer Vision and Pattern Recognition (CVPR), 2023

...

Silvio Savarese

Ran Xu

331

164

16 Mar 2023

Efficient Diffusion Training via Min-SNR Weighting StrategyIEEE International Conference on Computer Vision (ICCV), 2023

Jianmin Bao

312

224

16 Mar 2023

P+: Extended Textual Conditioning in Text-to-Image Generation

A. Voynov

Qinghao Chu

Daniel Cohen-Or

Kfir Aberman

VLM DiffM

370

245

16 Mar 2023

Automatic Geo-alignment of Artwork in Children's Story Books

Jakub J Dylag

V. Suarez

James Wald

Aneesha Amodini Uvara

DiffM

153

16 Mar 2023

Aerial Diffusion: Text Guided Ground-to-Aerial View Translation from a Single Image using Diffusion Models

240

15 Mar 2023

Class-Guided Image-to-Image Diffusion: Cell Painting from Brightfield Images with Class Labels

Carola-Bibiane Schönlieb

VLM DiffM MedIm

240

15 Mar 2023

Zero-Shot Contrastive Loss for Text-Guided Diffusion Image Style TransferIEEE International Conference on Computer Vision (ICCV), 2023

430

15 Mar 2023

Text-to-image Diffusion Models in Generative AI: A Survey

Chenshuang Zhang

Chaoning Zhang

Mengchun Zhang

In So Kweon

VLM

336

385

14 Mar 2023

Accountable Textual-Visual Chat Learns to Reject Human Instructions in Image Re-creation

Zhiwei Zhang

Yuliang Liu

MLLM

373

10 Mar 2023

Video-P2P: Video Editing with Cross-attention ControlComputer Vision and Pattern Recognition (CVPR), 2023

391

309

08 Mar 2023

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

359

771

08 Mar 2023

ELODIN: Naming Concepts in Embedding Spaces

312

07 Mar 2023