Title
SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing Ming Li Xin Gu Fan Chen X. Xing Longyin Wen C. L. P. Chen Sijie Zhu DiffM 81 1 0 05 May 2025
InstructAttribute: Fine-grained Object Attributes editing with Instruction Xingxi Yin Jingfeng Zhang Zhi Li Y. Li Y. Zhang DiffM 109 0 0 01 May 2025
X-Fusion: Introducing New Modality to Frozen Large Language Models Sicheng Mo Thao Nguyen Xun Huang Siddharth Srinivasan Iyer Yijun Li ... Eli Shechtman Krishna Kumar Singh Yong Jae Lee Bolei Zhou Yuheng Li 71 0 0 29 Apr 2025
Step1X-Edit: A Practical Framework for General Image Editing S. Liu Yucheng Han Peng Xing Fukun Yin Rui Wang ... Yibo Zhu Binxing Jiao X. Zhang Gang Yu Daxin Jiang DiffM 93 3 0 24 Apr 2025
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation Zhiyuan Yan Junyan Ye Weijia Li Zilong Huang Shenghai Yuan Xiangyang He Kaiqing Lin Jun-Jian He Conghui He Li Yuan MLLM EGVM 88 8 0 03 Apr 2025
FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model Jun Zhou J. Li Zunnan Xu Hanhui Li Yiji Cheng Fa-Ting Hong Qin Lin Qinglin Lu Xiaodan Liang DiffM 65 1 0 25 Mar 2025
Long-horizon Visual Instruction Generation with Logic and Attribute Self-reflection Yucheng Suo Fan Ma Kaixin Shen Linchao Zhu Yi Yang VLM 47 0 0 12 Mar 2025
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks Jiannan Wu Muyan Zhong Sen Xing Zeqiang Lai Zhaoyang Liu ... Lewei Lu Tong Lu Ping Luo Yu Qiao Jifeng Dai MLLM VLM LRM 91 46 0 03 Jan 2025
DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation Q. He Jinlong Peng P. Xu Boyuan Jiang Xiaobin Hu ... Y. Liu Y. Wang Chengjie Wang X. Li J. Zhang DiffM 120 1 0 04 Dec 2024
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing Hanhui Wang Yihua Zhang Ruizheng Bai Yue Zhao Sijia Liu Z. Tu AAML PICV 95 2 0 25 Nov 2024
Unveil Inversion and Invariance in Flow Transformer for Versatile Image Editing P. Xu Boyuan Jiang Xiaobin Hu Donghao Luo Q. He J. Zhang Chengjie Wang Yunsheng Wu Charles X. Ling Boyu Wang 87 2 0 24 Nov 2024
GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing Zhenyu Wang Aoxue Li Zhenguo Li Xihui Liu MLLM DiffM 41 25 0 08 Jul 2024
Towards Semantic Equivalence of Tokenization in Multimodal LLM Shengqiong Wu Hao Fei Xiangtai Li Jiayi Ji Hanwang Zhang Tat-Seng Chua Shuicheng Yan MLLM 59 31 0 07 Jun 2024
Diffusion Model-Based Image Editing: A Survey Yi Huang Jiancheng Huang Yifan Liu Mingfu Yan Jiaxi Lv Jianzhuang Liu Wei Xiong He Zhang Liangliang Cao Liangliang Cao EGVM 66 84 0 27 Feb 2024
MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception Yiran Qin Enshen Zhou Qichang Liu Zhen-fei Yin Lu Sheng Ruimao Zhang Yu Qiao Jing Shao LM&Ro 20 39 0 12 Dec 2023
MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing Kai Zhang Lingbo Mo Wenhu Chen Huan Sun Yu-Chuan Su EGVM 109 237 0 16 Jun 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 259 4,223 0 30 Jan 2023
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 1,077 0 17 Feb 2021
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 232 75,445 0 18 May 2015