Compositional Visual Generation with Composable Diffusion Models

3 June 2022

Shuang Li

Antonio Torralba

Papers citing "Compositional Visual Generation with Composable Diffusion Models"

50 / 87 papers shown

Title
MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation Mingcheng Li Xiaolu Hou Ziyang Liu Dingkang Yang Ziyun Qian Jiawei Chen Jinjie Wei Y. Jiang Qingyao Xu L. Zhang DiffM 96 0 0 05 May 2025
VSC: Visual Search Compositional Text-to-Image Diffusion Model Do Huu Dat Nam Hyeonu Po Yuan Mao Tae-Hyun Oh DiffM CoGe 57 0 0 02 May 2025
T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT D. Jiang Ziyu Guo Renrui Zhang Zhuofan Zong Hao Li Le Zhuo Shilin Yan Pheng-Ann Heng H. Li LRM 57 0 0 01 May 2025
TRACE Back from the Future: A Probabilistic Reasoning Approach to Controllable Language Generation Gwen Yidou Weng Benjie Wang Guy Van den Broeck BDL 84 0 0 25 Apr 2025
Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception Ziqi Pang Xin Xu Yu-Xiong Wang DiffM 60 0 0 15 Apr 2025
Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models Prin Phunyaphibarn Phillip Y. Lee Jaihoon Kim Minhyuk Sung DiffM 84 0 0 26 Mar 2025
Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via Conditional Variational Autoencoder Wonwoong Cho Yan-Ying Chen M. Klenk David I. Inouye Yanxia Zhang DiffM 112 0 0 15 Mar 2025
Fine-Grained Alignment and Noise Refinement for Compositional Text-to-Image Generation Amir Mohammad Izadi Seyed Mohsen Hosseini Soroush Vafaie Tabar Ali Abdollahi Armin Saghafian M. Baghshah EGVM 40 0 0 09 Mar 2025
Generative Trajectory Stitching through Diffusion Composition Yunhao Luo Utkarsh Aashu Mishra Yilun Du Danfei Xu 99 1 0 07 Mar 2025
Synthetic Data is an Elegant GIFT for Continual Vision-Language Models Bin Wu Wuxuan Shi Jinqiao Wang Mang Ye CLL VLM 45 0 0 06 Mar 2025
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning Shashank Gupta Chaitanya Ahuja Tsung-Yu Lin Sreya Dutta Roy Harrie Oosterhuis Maarten de Rijke Satya Narayan Shukla 46 1 0 02 Mar 2025
FreeBlend: Advancing Concept Blending with Staged Feedback-Driven Interpolation Diffusion Yufan Zhou Haoyu Shen Huan Wang DiffM 100 0 0 17 Feb 2025
History-Guided Video Diffusion Kiwhan Song Boyuan Chen Max Simchowitz Yilun Du Russ Tedrake Vincent Sitzmann VGen 109 7 0 10 Feb 2025
DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control Junjie Wen Y. X. Zhu Jinming Li Zhibin Tang Chaomin Shen Feifei Feng VLM 53 10 0 09 Feb 2025
Skill Expansion and Composition in Parameter Space Tenglong Liu J. Li Yinan Zheng Haoyi Niu Yixing Lan Xin Xu Xianyuan Zhan 53 4 0 09 Feb 2025
LLM-guided Instance-level Image Manipulation with Diffusion U-Net Cross-Attention Maps Andrey Palaev Adil Mehmood Khan S. M. Ahsan Kazmi DiffM 48 0 0 23 Jan 2025
Isolated Diffusion: Optimizing Multi-Concept Text-to-Image Generation Training-Freely with Isolated Diffusion Guidance Jin Zhu Huimin Ma Jiansheng Chen Jian Yuan 71 4 0 20 Jan 2025
EditSplat: Multi-View Fusion and Attention-Guided Optimization for View-Consistent 3D Scene Editing with 3D Gaussian Splatting Dong In Lee Hyeongcheol Park Jiyoung Seo Eunbyung Park Hyunje Park Ha Dam Baek Shin Sangheon Sangmin kim Sangpil Kim 3DGS 102 1 0 16 Dec 2024
Inference-Time Policy Steering through Human Interactions Yanwei Wang Lirui Wang Yilun Du Balakumar Sundaralingam Xuning Yang Yu-Wei Chao Claudia Pérez-DÁrpino Dieter Fox Julie Shah VGen 101 4 0 25 Nov 2024
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea Qifan Yu Wei Chow Zhongqi Yue Kaihang Pan Yang Wu Xiaoyang Wan Juncheng Billy Li Siliang Tang H. Zhang Yueting Zhuang DiffM 95 15 0 24 Nov 2024
Few-Shot Task Learning through Inverse Generative Modeling Aviv Netanyahu Yilun Du Antonia Bronars Jyothish Pari J. Tenenbaum Tianmin Shu Pulkit Agrawal 44 1 0 07 Nov 2024
Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models! Arash Marioriyad Mohammadali Banayeeanzade Reza Abbasi M. Rohban M. Baghshah DiffM 70 3 0 28 Oct 2024
Progressive Compositionality in Text-to-Image Generative Models Xu Han Linghao Jin Xiaofeng Liu Paul Pu Liang CoGe 96 2 0 22 Oct 2024
Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective Xiangru Zhu Penglei Sun Yaoxian Song Yanghua Xiao Zhixu Li Chengyu Wang Jun Huang Bei Yang Xiaoxiao Xu EGVM 129 1 0 14 Oct 2024
Compositional Risk Minimization Divyat Mahajan Mohammad Pezeshki Ioannis Mitliagkas Kartik Ahuja Pascal Vincent Pascal Vincent 26 3 0 08 Oct 2024
Generation of Complex 3D Human Motion by Temporal and Spatial Composition of Diffusion Models Lorenzo Mandelli Stefano Berretti DiffM 29 2 0 18 Sep 2024
Optimizing Resource Consumption in Diffusion Models through Hallucination Early Detection Federico Betti Lorenzo Baraldi Lorenzo Baraldi Rita Cucchiara N. Sebe DiffM 31 0 0 16 Sep 2024
FreeEnhance: Tuning-Free Image Enhancement via Content-Consistent Noising-and-Denoising Process Yang Luo Y. Zhang Zhaofan Qiu Ting Yao Zhineng Chen Yu-Gang Jiang Tao Mei DiffM 29 4 0 11 Sep 2024
Attacks and Defenses for Generative Diffusion Models: A Comprehensive Survey V. T. Truong Luan Ba Dang Long Bao Le DiffM MedIm 38 16 0 06 Aug 2024
Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention Mengkang Hu DiffM 38 7 0 01 Aug 2024
Learning Feature-Preserving Portrait Editing from Generated Pairs Bowei Chen Tiancheng Zhi Peihao Zhu Shen Sang Jing Liu Linjie Luo DiffM 22 0 0 29 Jul 2024
GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing Zhenyu Wang Aoxue Li Zhenguo Li Xihui Liu MLLM DiffM 41 25 0 08 Jul 2024
Repairing Catastrophic-Neglect in Text-to-Image Diffusion Models via Attention-Guided Feature Enhancement Zhiyuan Chang Mingyang Li Junjie Wang Yi Liu Qing Wang Yang Liu DiffM 18 1 0 24 Jun 2024
Amortizing intractable inference in diffusion models for vision, language, and control S. Venkatraman Moksh Jain Luca Scimeca Minsu Kim Marcin Sendera ... Alexandre Adam Jarrid Rector-Brooks Yoshua Bengio Glen Berseth Nikolay Malkin 60 24 0 31 May 2024
ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance Jiannan Huang Jun Hao Liew Hanshu Yan Yuyang Yin Yao Zhao Yunchao Wei Yunchao Wei DiffM 90 6 0 27 May 2024
Images that Sound: Composing Images and Sounds on a Single Canvas Ziyang Chen Daniel Geng Andrew Owens DiffM 48 9 0 20 May 2024
Training-free Subject-Enhanced Attention Guidance for Compositional Text-to-image Generation Shengyuan Liu Bo Wang Ye Ma Te Yang Xipeng Cao Quan Chen Han Li Di Dong Peng Jiang EGVM 36 2 0 11 May 2024
Paint by Inpaint: Learning to Add Image Objects by Removing Them First Navve Wasserman Noam Rotstein Roy Ganz Ron Kimmel DiffM 34 14 0 28 Apr 2024
Factorized Diffusion: Perceptual Illusions by Noise Decomposition Daniel Geng Inbum Park Andrew Owens DiffM 38 16 0 17 Apr 2024
COMBO: Compositional World Models for Embodied Multi-Agent Cooperation Hongxin Zhang Zeyuan Wang Qiushi Lyu Zheyuan Zhang Sunli Chen Tianmin Shu Yilun Du Kwonjoon Lee Yilun Du Chuang Gan 41 12 0 16 Apr 2024
MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models Nithin Gopalakrishnan Nair Jeya Maria Jose Valanarasu Vishal M. Patel MoMe 33 7 0 15 Apr 2024
Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions S. A. Baumann Felix Krause Michael Neumayr Nick Stracke Vincent Tao Hu Bjorn Ommer Björn Ommer DiffM LM&Ro 68 11 0 25 Mar 2024
On gauge freedom, conservativity and intrinsic dimensionality estimation in diffusion models Christian Horvat J. Pfister DiffM 20 8 0 06 Feb 2024
Towards Flexible, Scalable, and Adaptive Multi-Modal Conditioned Face Synthesis Jingjing Ren Cheng Xu Haoyu Chen Xinran Qin Lei Zhu CVBM DiffM 24 4 0 26 Dec 2023
Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training Xinyan Chen Jiaxin Ge Tianjun Zhang Jiaming Liu Shanghang Zhang VLM EGVM 27 0 0 23 Dec 2023
4M: Massively Multimodal Masked Modeling David Mizrahi Roman Bachmann Ouguzhan Fatih Kar Teresa Yeo Mingfei Gao Afshin Dehghan Amir Zamir MLLM 39 62 0 11 Dec 2023
Make-A-Storyboard: A General Framework for Storyboard with Disentangled and Merged Control Sitong Su Litao Guo Lianli Gao Hengtao Shen Jingkuan Song DiffM 33 3 0 06 Dec 2023
MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing Haoyu Zhao Tianyi Lu Jiaxi Gu Xing Zhang Qingping Zheng Zuxuan Wu Hang Xu Yu-Gang Jiang VGen DiffM 27 10 0 29 Nov 2023
Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following Yutong Feng Biao Gong Di Chen Yujun Shen Yu Liu Jingren Zhou DiffM 21 43 0 28 Nov 2023
Synthetic Shifts to Initial Seed Vector Exposes the Brittle Nature of Latent-Based Diffusion Models Poyuan Mao Shashank Kotyan Tham Yik Foong Danilo Vasconcellos Vargas 22 5 0 24 Nov 2023