v1v2 (latest)

InstructPix2Pix: Learning to Follow Image Editing Instructions

Computer Vision and Pattern Recognition (CVPR), 2022

17 November 2022

Tim Brooks

Aleksander Holynski

Alexei A. Efros

DiffM

ArXiv (abs)PDF HTML HuggingFace (4 upvotes)

Papers citing "InstructPix2Pix: Learning to Follow Image Editing Instructions"

50 / 1,733 papers shown

UniSER: A Foundation Model for Unified Soft Effects Removal

...

162

18 Nov 2025

InstructMix2Mix: Consistent Sparse-View Editing Through Multi-View Model Personalization

Daniel Gilo

Or Litany

168

18 Nov 2025

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

195

17 Nov 2025

Training-Free Multi-View Extension of IC-Light for Textual Position-Aware Scene Relighting

184

17 Nov 2025

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

...

619

16 Nov 2025

Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

...

Juan-Manuel Perez-Rua

105

15 Nov 2025

Image-POSER: Reflective RL for Multi-Expert Image Generation and Editing

197

15 Nov 2025

SimuFreeMark: A Noise-Simulation-Free Robust Watermarking Against Image Editing

14 Nov 2025

Towards Fine-Grained Interpretability: Counterfactual Explanations for Misclassification with Saliency PartitionComputer Vision and Pattern Recognition (CVPR), 2025

464

11 Nov 2025

VectorSynth: Fine-Grained Satellite Image Synthesis with Structured Semantics

164

11 Nov 2025

LayerEdit: Disentangled Multi-Object Editing via Conflict-Aware Multi-Layer LearningConference on Empirical Methods in Natural Language Processing (EMNLP), 2025

220

11 Nov 2025

Generative AI Meets 6G and Beyond: Diffusion Models for Semantic Communications

422

11 Nov 2025

Top2Ground: A Height-Aware Dual Conditioning Diffusion Model for Robust Aerial-to-Ground View Generation

Jae Joong Lee

Bedrich Benes

DiffM

136

11 Nov 2025

DIMO: Diverse 3D Motion Generation for Arbitrary Objects

182

10 Nov 2025

FreeControl: Efficient, Training-Free Structural Control via One-Step Attention Extraction

132

07 Nov 2025

Personalized Image Editing in Text-to-Image Diffusion Models via Collaborative Direct Preference Optimization

06 Nov 2025

EVLP:Learning Unified Embodied Vision-Language Planner with Reinforced Supervised Fine-Tuning

103

03 Nov 2025

ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation

240

03 Nov 2025

Example-Based Feature Painting on Textures

Andrei-Timotei Ardelean

Tim Weyrich

DiffM

198

03 Nov 2025

UniREditBench: A Unified Reasoning-based Image Editing Benchmark

...

194

03 Nov 2025

Med-Banana-50K: A Cross-modality Large-Scale Dataset for Text-guided Medical Image Editing

Zhihui Chen

Mengling Feng

MedIm LM&MA

386

02 Nov 2025

BlurGuard: A Simple Approach for Robustifying Image Protection Against AI-Powered Editing

220

31 Oct 2025

Understanding the Implicit User Intention via Reasoning with Large Language Model for Image Editing

145

31 Oct 2025

FreeSliders: Training-Free, Modality-Agnostic Concept Sliders for Fine-Grained Diffusion Control in Images, Audio, and Video

162

30 Oct 2025

Emu3.5: Native Multimodal Models are World Learners

...

460

30 Oct 2025

Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification

150

28 Oct 2025

Group Relative Attention Guidance for Image Editing

211

28 Oct 2025

Neural USD: An object-centric framework for iterative editing and control

Alejandro Escontrela

Shrinu Kushagra

Sjoerd van Steenkiste

148

28 Oct 2025

UniAIDet: A Unified and Universal Benchmark for AI-Generated Image Content Detection and Localization

Huixuan Zhang

Xiaojun Wan

EGVM

173

27 Oct 2025

LightFusion: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

...

364

27 Oct 2025

SAO-Instruct: Free-form Audio Editing using Natural Language Instructions

165

26 Oct 2025

GeoDiffusion: A Training-Free Framework for Accurate 3D Geometric Conditioning in Image Generation

116

25 Oct 2025

Bridging the gap to real-world language-grounded visual concept learning

152

24 Oct 2025

EditInfinity: Image Editing with Binary-Quantized Generative Models

218

23 Oct 2025

AutoScape: Geometry-Consistent Long-Horizon Scene Generation

154

23 Oct 2025

[De|Re]constructing VLMs' Reasoning in Counting

206

22 Oct 2025

Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

118

22 Oct 2025

ImageGem: In-the-wild Generative Image Interaction Dataset for Generative Model Personalization

21 Oct 2025

Beyond Frequency: Scoring-Driven Debiasing for Object Detection via Blueprint-Prompted Image Synthesis

170

21 Oct 2025

HIDISC: A Hyperbolic Framework for Domain Generalization with Generalized Category Discovery

Vaibhav Rathore

Divyam Gupta

Biplab Banerjee

127

20 Oct 2025

UniRL-Zero: Reinforcement Learning on Unified Models with Joint Language Model and Diffusion Model Experts

150

20 Oct 2025

Personalized Image Filter: Mastering Your Photographic Style

157

19 Oct 2025

From Mannequin to Human: A Pose-Aware and Identity-Preserving Video Generation Framework for Lifelike Clothing Display

193

19 Oct 2025

Region in Context: Text-condition Image editing with Human-like semantic reasoning

125

19 Oct 2025

Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

...

406

19 Oct 2025

Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

...

375

17 Oct 2025

Skyfall-GS: Synthesizing Immersive 3D Urban Scenes from Satellite Imagery

278

17 Oct 2025

LightsOut: Diffusion-based Outpainting for Enhanced Lens Flare Removal

181

17 Oct 2025

BLIP3o-NEXT: Next Frontier of Native Image Generation

...

113

17 Oct 2025

Salient Concept-Aware Generative Data Augmentation

206

16 Oct 2025