v1v2 (latest)

InstructPix2Pix: Learning to Follow Image Editing Instructions

Computer Vision and Pattern Recognition (CVPR), 2022

17 November 2022

Tim Brooks

Aleksander Holynski

Alexei A. Efros

DiffM

ArXiv (abs)PDF HTML HuggingFace (4 upvotes)

Papers citing "InstructPix2Pix: Learning to Follow Image Editing Instructions"

50 / 1,731 papers shown

Regressor-Guided Generative Image Editing Balances User Emotions to Reduce Time Spent Online

255

24 Dec 2025

LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

166

24 Dec 2025

Refaçade: Editing Object with Given Reference Texture

175

04 Dec 2025

I2I-Bench: A Comprehensive Benchmark Suite for Image-to-Image Editing Models

170

04 Dec 2025

GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces

129

03 Dec 2025

DirectDrag: High-Fidelity, Mask-Free, Prompt-Free Drag-based Image Editing via Readout-Guided Feature Alignment

132

03 Dec 2025

Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence

227

03 Dec 2025

CAMEO: Correspondence-Attention Alignment for Multi-View Diffusion Models

02 Dec 2025

UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

01 Dec 2025

TokenPure: Watermark Removal through Tokenized Appearance and Structural Guidance

193

01 Dec 2025

Generative Editing in the Joint Vision-Language Space for Zero-Shot Composed Image Retrieval

147

01 Dec 2025

FreqEdit: Preserving High-Frequency Features for Robust Multi-Turn Image Editing

126

01 Dec 2025

Reversible Inversion for Training-Free Exemplar-guided Image Editing

129

01 Dec 2025

BioPro: On Difference-Aware Gender Fairness for Vision-Language Models

30 Nov 2025

Charts Are Not Images: On the Challenges of Scientific Chart Editing

30 Nov 2025

Dynamic-eDiTor: Training-Free Text-Driven 4D Scene Editing with Multimodal Diffusion Transformer

145

30 Nov 2025

POLARIS: Projection-Orthogonal Least Squares for Robust and Adaptive Inversion in Diffusion Models

29 Nov 2025

RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

117

29 Nov 2025

Vision Bridge Transformer at Scale

100

28 Nov 2025

Fast Multi-view Consistent 3D Editing with Video Priors

223

28 Nov 2025

MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation

28 Nov 2025

DEAL-300K: Diffusion-based Editing Area Localization with a 300K-Scale Dataset and Frequency-Prompted Baseline

28 Nov 2025

JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-Evaluator Optimization

...

245

28 Nov 2025

One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfer

123

28 Nov 2025

3D-Consistent Multi-View Editing by Diffusion Guidance

123

27 Nov 2025

ReasonEdit: Towards Reasoning-Enhanced Image Editing Models

...

241

27 Nov 2025

Match-and-Fuse: Consistent Generation from Unstructured Image Sets

27 Nov 2025

DiffStyle360: Diffusion-Based 360° Head Stylization via Style Fusion Attention

27 Nov 2025

PG-ControlNet: A Physics-Guided ControlNet for Generative Spatially Varying Image Deblurring

Hakki Motorcu

Mujdat Cetin

DiffM

239

26 Nov 2025

SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition

343

26 Nov 2025

CameraMaster: Unified Camera Semantic-Parameter Control for Photography Retouching

312

26 Nov 2025

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

357

26 Nov 2025

MUSE: Manipulating Unified Framework for Synthesizing Emotions in Images via Test-Time Optimization

546

26 Nov 2025

A Training-Free Approach for Multi-ID Customization via Attention Adjustment and Spatial Control

Jiawei Lin

Guanlong Jiao

Jianjin Xu

277

25 Nov 2025

Low-Resolution Editing is All You Need for High-Resolution Editing

222

25 Nov 2025

HBridge: H-Shape Bridging of Heterogeneous Experts for Unified Multimodal Understanding and Generation

...

172

25 Nov 2025

TReFT: Taming Rectified Flow Models For One-Step Image Translation

144

25 Nov 2025

Are Image-to-Video Models Good Zero-Shot Image Editors?

560

24 Nov 2025

MonoMSK: Monocular 3D Musculoskeletal Dynamics Estimation

244

24 Nov 2025

ReCoGS: Real-time ReColoring for Gaussian Splatting scenes

126

23 Nov 2025

IE-Critic-R1: Advancing the Explanatory Measurement of Text-Driven Image Editing for Human Perception Alignment

22 Nov 2025

Counterfactual World Models via Digital Twin-conditioned Video Diffusion

165

21 Nov 2025

Native 3D Editing with Full Attention

127

21 Nov 2025

SPIDER: Spatial Image CorresponDence Estimator for Robust Calibration

21 Nov 2025

Show Me: Unifying Instructional Image and Video Generation with Diffusion Models

118

21 Nov 2025

DeltaDeno: Zero-Shot Anomaly Generation via Delta-Denoising Attribution

281

21 Nov 2025

T2T-VICL: Unlocking the Boundaries of Cross-Task Visual In-Context Learning via Implicit Text-Driven VLMs

424

20 Nov 2025

NaTex: Seamless Texture Generation as Latent Color Diffusion

175

20 Nov 2025

Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

245

20 Nov 2025

SplitFlux: Learning to Decouple Content and Style from a Single Image

213

19 Nov 2025