v1v2 (latest)

InstructPix2Pix: Learning to Follow Image Editing Instructions

Computer Vision and Pattern Recognition (CVPR), 2022

17 November 2022

Tim Brooks

Aleksander Holynski

Alexei A. Efros

DiffM

ArXiv (abs)PDF HTML HuggingFace (4 upvotes)

Papers citing "InstructPix2Pix: Learning to Follow Image Editing Instructions"

50 / 1,734 papers shown

Regressor-Guided Generative Image Editing Balances User Emotions to Reduce Time Spent Online

263

24 Dec 2025

LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

195

24 Dec 2025

Refaçade: Editing Object with Given Reference Texture

187

04 Dec 2025

I2I-Bench: A Comprehensive Benchmark Suite for Image-to-Image Editing Models

179

04 Dec 2025

GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces

139

03 Dec 2025

DirectDrag: High-Fidelity, Mask-Free, Prompt-Free Drag-based Image Editing via Readout-Guided Feature Alignment

135

03 Dec 2025

Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence

231

03 Dec 2025

CAMEO: Correspondence-Attention Alignment for Multi-View Diffusion Models

101

02 Dec 2025

UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

01 Dec 2025

TokenPure: Watermark Removal through Tokenized Appearance and Structural Guidance

207

01 Dec 2025

Generative Editing in the Joint Vision-Language Space for Zero-Shot Composed Image Retrieval

181

01 Dec 2025

FreqEdit: Preserving High-Frequency Features for Robust Multi-Turn Image Editing

131

01 Dec 2025

Reversible Inversion for Training-Free Exemplar-guided Image Editing

138

01 Dec 2025

BioPro: On Difference-Aware Gender Fairness for Vision-Language Models

30 Nov 2025

Charts Are Not Images: On the Challenges of Scientific Chart Editing

30 Nov 2025

Dynamic-eDiTor: Training-Free Text-Driven 4D Scene Editing with Multimodal Diffusion Transformer

164

30 Nov 2025

POLARIS: Projection-Orthogonal Least Squares for Robust and Adaptive Inversion in Diffusion Models

29 Nov 2025

RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

137

29 Nov 2025

Vision Bridge Transformer at Scale

108

28 Nov 2025

Fast Multi-view Consistent 3D Editing with Video Priors

240

28 Nov 2025

MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation

28 Nov 2025

DEAL-300K: Diffusion-based Editing Area Localization with a 300K-Scale Dataset and Frequency-Prompted Baseline

28 Nov 2025

JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-Evaluator Optimization

...

255

28 Nov 2025

One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfer

133

28 Nov 2025

3D-Consistent Multi-View Editing by Diffusion Guidance

127

27 Nov 2025

ReasonEdit: Towards Reasoning-Enhanced Image Editing Models

...

255

27 Nov 2025

Match-and-Fuse: Consistent Generation from Unstructured Image Sets

27 Nov 2025

DiffStyle360: Diffusion-Based 360° Head Stylization via Style Fusion Attention

27 Nov 2025

PG-ControlNet: A Physics-Guided ControlNet for Generative Spatially Varying Image Deblurring

Hakki Motorcu

Mujdat Cetin

DiffM

244

26 Nov 2025

SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition

352

26 Nov 2025

CameraMaster: Unified Camera Semantic-Parameter Control for Photography Retouching

323

26 Nov 2025

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

364

26 Nov 2025

MUSE: Manipulating Unified Framework for Synthesizing Emotions in Images via Test-Time Optimization

547

26 Nov 2025

A Training-Free Approach for Multi-ID Customization via Attention Adjustment and Spatial Control

Jiawei Lin

Guanlong Jiao

Jianjin Xu

290

25 Nov 2025

Low-Resolution Editing is All You Need for High-Resolution Editing

225

25 Nov 2025

HBridge: H-Shape Bridging of Heterogeneous Experts for Unified Multimodal Understanding and Generation

...

177

25 Nov 2025

TReFT: Taming Rectified Flow Models For One-Step Image Translation

147

25 Nov 2025

Are Image-to-Video Models Good Zero-Shot Image Editors?

572

24 Nov 2025

MonoMSK: Monocular 3D Musculoskeletal Dynamics Estimation

254

24 Nov 2025

ReCoGS: Real-time ReColoring for Gaussian Splatting scenes

128

23 Nov 2025

IE-Critic-R1: Advancing the Explanatory Measurement of Text-Driven Image Editing for Human Perception Alignment

105

22 Nov 2025

Counterfactual World Models via Digital Twin-conditioned Video Diffusion

165

21 Nov 2025

Native 3D Editing with Full Attention

142

21 Nov 2025

SPIDER: Spatial Image CorresponDence Estimator for Robust Calibration

21 Nov 2025

Show Me: Unifying Instructional Image and Video Generation with Diffusion Models

120

21 Nov 2025

DeltaDeno: Zero-Shot Anomaly Generation via Delta-Denoising Attribution

284

21 Nov 2025

T2T-VICL: Unlocking the Boundaries of Cross-Task Visual In-Context Learning via Implicit Text-Driven VLMs

434

20 Nov 2025

NaTex: Seamless Texture Generation as Latent Color Diffusion

178

20 Nov 2025

Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

251

20 Nov 2025

SplitFlux: Learning to Decouple Content and Style from a Single Image

232

19 Nov 2025