v1v2 (latest)

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer

International Conference on Learning Representations (ICLR), 2024

30 September 2024

Zhen Han

Zeyinzi Jiang

Yulin Pan

Jingfeng Zhang

Chaojie Mao

Chenwei Xie

Yu Liu

Jingren Zhou

DiffM

ArXiv (abs)PDF HTML HuggingFace (12 upvotes)

Papers citing "ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer"

21 / 21 papers shown

Title
FreqEdit: Preserving High-Frequency Features for Robust Multi-Turn Image Editing Yucheng Liao Jiajun Liang Kaiqian Cui Baoquan Zhao Haoran Xie Wei Liu Qing Li Xudong Mao 84 0 0 01 Dec 2025
The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment Ziheng Ouyang Yiren Song Y. Liu Shihao Zhu Qibin Hou Ming-Ming Cheng Mike Zheng Shou 92 0 0 25 Nov 2025
TBStar-Edit: From Image Editing Pattern Shifting to Consistency Enhancement Hao Fang Zechao Zhan Weixin Feng Ziwei Huang Xubin Li Tiezheng Ge DiffM 310 0 0 06 Oct 2025
Query-Kontext: An Unified Multimodal Model for Image Generation and Editing Yuxin Song Wenkai Dong Shizun Wang Qi Zhang Song Xue ... H. Yang Haocheng Feng Hang Zhou Xinyan Xiao Jingdong Wang DiffM MLLM 149 2 0 30 Sep 2025
Taming Flow-based I2V Models for Creative Video Editing Xianghao Kong Hansheng Chen Yuwei Guo Lvmin Zhang Gordon Wetzstein Maneesh Agrawala Anyi Rao DiffM VGen 128 2 0 26 Sep 2025
Does FLUX Already Know How to Perform Physically Plausible Image Composition? Shilin Lu Zhuming Lian Zihan Zhou Shaocong Zhang Chen Zhao A. Kong 262 11 0 25 Sep 2025
Lego-Edit: A General Image Editing Framework with Model-Level Bricks and MLLM Builder Qifei Jia Yu Liu Yajie Chai Xintong Yao Qiming Lu Y. Zhang Runyu Shi Y. Huang Guoquan Zhang LM&Ro 117 2 0 16 Sep 2025
MultiRef: Controllable Image Generation with Multiple Visual References Ruoxi Chen Dongping Chen Siyuan Wu Sinan Wang Shiyun Lang Petr Sushko Gaoyang Jiang Yao Wan Ranjay Krishna DiffM 236 2 0 09 Aug 2025
RichControl: Structure- and Appearance-Rich Training-Free Spatial Control for Text-to-Image Generation Liheng Zhang Lexi Pang Hang Ye Xiaoxuan Ma Yizhou Wang DiffM 227 0 0 03 Jul 2025
Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis H. Cao Yutong Feng Biao Gong Yijing Tian Yunhong Lu Chuang Liu Bin Wang DiffM VGen 174 3 0 29 May 2025
CreatiDesign: A Unified Multi-Conditional Diffusion Transformer for Creative Graphic Design H. Zhang Dexiang Hong Maoke Yang Yutao Chen Zhao Zhang Jie Shao Xinglong Wu Zuxuan Wu Yu Jiang DiffM AI4CE 495 12 0 25 May 2025
InstructAttribute: Fine-grained Object Attributes editing with Instruction Xingxi Yin Jingfeng Zhang Zhi Li You Li Yanzhe Zhang Yin Zhang DiffM 960 1 0 01 May 2025
In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer Zechuan Zhang Ji Xie Yu Lu Zongxin Yang Yue Yang DiffM 291 82 0 29 Apr 2025
Step1X-Edit: A Practical Framework for General Image Editing Shixuan Liu Yucheng Han Peng Xing Fukun Yin Rui Wang ... Yibo Zhu Binxing Jiao Wei Wei Gang Yu Daxin Jiang DiffM 680 157 0 24 Apr 2025
Lumina-OmniLV: A Unified Multimodal Framework for General Low-Level Vision Yuandong Pu Le Zhuo Kaiwen Zhu Liangbin Xie Wenlong Zhang Xiangyu Chen Peng Gao Botian Shi Chao Dong Yihao Liu MLLM 276 9 0 07 Apr 2025
ICE-Bench: A Unified and Comprehensive Benchmark for Image Creating and Editing Yulin Pan Xiangteng He Chaojie Mao Zhen Han Zeyinzi Jiang Junxuan Zhang Yu Liu EGVM VLM 282 10 0 18 Mar 2025
RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models Yijing Lin Mengqi Huang Shuhan Zhuang Zhendong Mao VGen 294 11 0 13 Mar 2025
X2I: Seamless Integration of Multimodal Understanding into Diffusion Transformer via Attention Distillation Jian Ma Qirong Peng Xu Guo Chen Chen H. Lu Zhenyu Yang VLM 493 5 0 08 Mar 2025
Phantom: Subject-consistent video generation via cross-modal alignment Lijie Liu Tianxiang Ma Bingchuan Li Zhuowei Chen Jiawei Liu Qian He Xinglong Wu Qian He Xinglong Wu DiffM VGen 415 44 0 16 Feb 2025
ControlText: Unlocking Controllable Fonts in Multilingual Text Rendering without Font Annotations Bowen Jiang Yuan Yuan Xinyi Bai Zhuoqun Hao Alyson Yin Yaojie Hu Wenyu Liao Lyle Ungar Camillo J Taylor DiffM 409 2 0 16 Feb 2025
ACE++: Instruction-Based Image Creation and Editing via Context-Aware Content Filling Chaojie Mao Junxuan Zhang Yulin Pan Zeyinzi Jiang Zhen Han Yu Liu Jingren Zhou DiffM 345 60 0 05 Jan 2025

All Papers

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer

Papers citing "ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer"