v1v2 (latest)

InstructPix2Pix: Learning to Follow Image Editing Instructions

Computer Vision and Pattern Recognition (CVPR), 2022

17 November 2022

Tim Brooks

Aleksander Holynski

Alexei A. Efros

DiffM

ArXiv (abs)PDF HTML HuggingFace (4 upvotes)

Papers citing "InstructPix2Pix: Learning to Follow Image Editing Instructions"

50 / 1,733 papers shown

Contrastive Diffusion Alignment: Learning Structured Latents for Controllable Generation

...

175

16 Oct 2025

NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks

202

16 Oct 2025

In-Context Learning with Unpaired Clips for Instruction-based Video Editing

131

16 Oct 2025

Learning an Image Editing Model without Image Editing Pairs

309

16 Oct 2025

Constantly Improving Image Models Need Constantly Improving Benchmarks

111

16 Oct 2025

Adaptive Visual Conditioning for Semantic Consistency in Diffusion-Based Story Continuation

Seyed Mohammad Mousavi

Morteza Analoui

DiffM

125

15 Oct 2025

CanvasMAR: Improving Masked Autoregressive Video Generation With Canvas

Zian Li

Muhan Zhang

DiffM VGen

156

15 Oct 2025

Edit-Your-Interest: Efficient Video Editing via Feature Most-Similar Propagation

131

15 Oct 2025

Vectorized Video Representation with Easy Editing via Hierarchical Spatio-Temporally Consistent Proxy Embedding

253

14 Oct 2025

SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models

208

14 Oct 2025

CoDefend: Cross-Modal Collaborative Defense via Diffusion Purification and Prompt Optimization

114

13 Oct 2025

IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment

107

13 Oct 2025

EditCast3D: Single-Frame-Guided 3D Editing with Video Propagation and View Selection

139

11 Oct 2025

Color3D: Controllable and Consistent 3D Colorization with Personalized Colorizer

134

11 Oct 2025

ReMix: Towards a Unified View of Consistent Character Generation and Editing

118

11 Oct 2025

Mono4DEditor: Text-Driven 4D Scene Editing from Monocular Video via Point-Level Localization of Language-Embedded Gaussians

121

10 Oct 2025

InstructX: Towards Unified Visual Editing with MLLM Guidance

256

09 Oct 2025

Computationally-efficient Graph Modeling with Refined Graph Random Features

117

09 Oct 2025

MATRIX: Multimodal Agent Tuning for Robust Tool-Use Reasoning

Tajamul Ashraf

Umair Nawaz

Abdelrahman M. Shaker

227

09 Oct 2025

UniVideo: Unified Understanding, Generation, and Editing for Videos

262

09 Oct 2025

Beyond Textual CoT: Interleaved Text-Image Chains with Deep Confidence Reasoning for Image Editing

...

183

09 Oct 2025

Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing

148

09 Oct 2025

DreamOmni2: Multimodal Instruction-based Editing and Generation

...

118

08 Oct 2025

Vision-Language-Action Models for Robotics: A Review Towards Real-World ApplicationsIEEE Access (IEEE Access), 2025

273

08 Oct 2025

Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer

...

158

08 Oct 2025

Efficient High-Resolution Image Editing with Hallucination-Aware Loss and Adaptive Tiling

Young D. Kwon

Abhinav Mehrotra

Malcolm Chadwick

Alberto Gil C. P. Ramos

S. Bhattacharya

DiffM

168

07 Oct 2025

TBStar-Edit: From Image Editing Pattern Shifting to Consistency Enhancement

341

06 Oct 2025

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

...

244

06 Oct 2025

C3Editor: Achieving Controllable Consistency in 2D Model for 3D Editing

383

06 Oct 2025

ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation

...

234

05 Oct 2025

The Overlooked Value of Test-time Reference Sets in Visual Place Recognition

113

04 Oct 2025

Towards Scalable and Consistent 3D Editing

160

03 Oct 2025

Growing Visual Generative Capacity for Pre-Trained MLLMs

203

02 Oct 2025

Towards Better Optimization For Listwise Preference in Diffusion Models

341

02 Oct 2025

FreeViS: Training-free Video Stylization with Inconsistent References

208

02 Oct 2025

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

313

02 Oct 2025

Editable Noise Map Inversion: Encoding Target-image into Noise For High-Fidelity Image Manipulation

Mingyu Kang

Yong Suk Choi

DiffM

228

30 Sep 2025

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

116

30 Sep 2025

Query-Kontext: An Unified Multimodal Model for Image Generation and Editing

...

153

30 Sep 2025

Dragging with Geometry: From Pixels to Geometry-Guided Image Editing

151

30 Sep 2025

LaTo: Landmark-tokenized Diffusion Transformer for Fine-grained Human Face Editing

144

30 Sep 2025

GaussEdit: Adaptive 3D Scene Editing with Text and Image PromptsIEEE Transactions on Visualization and Computer Graphics (TVCG), 2025

202

30 Sep 2025

IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

143

30 Sep 2025

CharGen: Fast and Fluent Portrait Modification

108

29 Sep 2025

Instruction Guided Multi Object Image Editing with Quantity and Layout Consistency

109

29 Sep 2025

Environment-Aware Satellite Image Generation with Diffusion Models

105

29 Sep 2025

Causal-Adapter: Taming Text-to-Image Diffusion for Faithful Counterfactual Generation

Sotirios A. Tsaftaris

Chen Jin

DiffM CML

284

29 Sep 2025

SCOPE: Semantic Conditioning for Sim2Real Category-Level Object Pose Estimation in Robotics

Peter Honig

S. Thalhammer

Jean-Baptiste Weibel

Matthias Hirschmanner

Markus Vincze

138

29 Sep 2025

ReLumix: Extending Image Relighting to Video via Video Diffusion Models

124

28 Sep 2025

VMDiff: Visual Mixing Diffusion for Limitless Cross-Object Synthesis

159

28 Sep 2025