Title
Make It Count: Text-to-Image Generation with an Accurate Number of Objects Lital Binyamin Yoad Tewel Hilit Segev Eran Hirsch Royi Rassin Gal Chechik 24 6 0 14 Jun 2024
ControlVAR: Exploring Controllable Visual Autoregressive Modeling Xiang Li Kai Qiu Hao Chen Jason Kuen Zhe-nan Lin Rita Singh Bhiksha Raj DiffM 35 21 0 14 Jun 2024
Neural Assets: 3D-Aware Multi-Object Scene Synthesis with Image Diffusion Models Ziyi Wu Yulia Rubanova Rishabh Kabra Drew A. Hudson Igor Gilitschenski Yusuf Aytar Sjoerd van Steenkiste Kelsey R. Allen Thomas Kipf VGen DiffM 34 10 0 13 Jun 2024
Ctrl-X: Controlling Structure and Appearance for Text-To-Image Generation Without Guidance Kuan Heng Lin Sicheng Mo Ben Klingher Fangzhou Mu Bolei Zhou DiffM 16 15 0 11 Jun 2024
Tuning-Free Visual Customization via View Iterative Self-Attention Control Xiaojie Li Chenghao Gu Shuzhao Xie Yunpeng Bai Weixiang Zhang Zhi Wang 32 0 0 10 Jun 2024
Can Prompt Modifiers Control Bias? A Comparative Analysis of Text-to-Image Generative Models P. W. Shin Jihyun Janice Ahn Wenpeng Yin Jack Sampson Vijaykrishnan Narayanan 21 2 0 09 Jun 2024
Multi-modal Generation via Cross-Modal In-Context Learning Amandeep Kumar Muzammal Naseer Sanath Narayan Rao Muhammad Anwer Salman Khan Hisham Cholakkal MLLM 48 0 0 28 May 2024
ODGEN: Domain-specific Object Detection Data Generation with Diffusion Models Jingyuan Zhu Shiyu Li Yuxuan Liu Ping-Chia Huang Jiulong Shan Huimin Ma Jian Yuan 21 3 0 24 May 2024
Compositional Text-to-Image Generation with Dense Blob Representations Weili Nie Sifei Liu Morteza Mardani Chao Liu Benjamin Eckart Arash Vahdat DiffM 75 16 0 14 May 2024
FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation Xuehai He Jian Zheng Jacob Zhiyuan Fang Robinson Piramuthu Mohit Bansal Vicente Ordonez Gunnar A. Sigurdsson Nanyun Peng Xin Eric Wang DiffM 43 1 0 08 May 2024
Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable Haozhe Liu Wentian Zhang Bing Li Bernard Ghanem Jürgen Schmidhuber DiffM WIGM AAML 23 1 0 01 May 2024
Towards Better Text-to-Image Generation Alignment via Attention Modulation Yihang Wu Xiao Cao Kaixin Li Zitan Chen Haonan Wang Lei Meng Zhiyong Huang DiffM 18 6 0 22 Apr 2024
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model Han Lin Jaemin Cho Abhaysinh Zala Mohit Bansal DiffM VGen 58 20 0 15 Apr 2024
ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback Ming Li Taojiannan Yang Huafeng Kuang Jie Wu Zhaoning Wang Xuefeng Xiao C. L. P. Chen 33 59 0 11 Apr 2024
ZeST: Zero-Shot Material Transfer from a Single Image Ta-Ying Cheng Prafull Sharma Andrew Markham Niki Trigoni Varun Jampani 34 8 0 09 Apr 2024
SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing Jing Gu Yilin Wang Nanxuan Zhao Wei Xiong Qing Liu Zhifei Zhang He Zhang Jianming Zhang HyunJoon Jung Xin Eric Wang DiffM 22 8 0 08 Apr 2024
Getting it Right: Improving Spatial Consistency in Text-to-Image Models Agneet Chatterjee Gabriela Ben-Melech Stan Estelle Aflalo Sayak Paul Dhruba Ghosh ... Ludwig Schmidt Hanna Hajishirzi Vasudev Lal Chitta Baral Yezhou Yang EGVM VLM 57 14 0 01 Apr 2024
PosterLlama: Bridging Design Ability of Langauge Model to Contents-Aware Layout Generation Jaejung Seol Seojun Kim Jaejun Yoo 3DV VLM 19 6 0 01 Apr 2024
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation Omer Dahary Or Patashnik Kfir Aberman Daniel Cohen-Or DiffM 21 27 0 25 Mar 2024
ZoDi: Zero-Shot Domain Adaptation with Diffusion-Based Image Transfer Hiroki Azuma Yusuke Matsui Atsuto Maki VLM 34 1 0 20 Mar 2024
ReGround: Improving Textual and Spatial Grounding at No Cost Yuseung Lee Minhyuk Sung DiffM 26 2 0 20 Mar 2024
DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception Yibo Wang Ruiyuan Gao Kai Chen Kaiqiang Zhou Yingjie Cai ... Zhenguo Li Lihui Jiang Dit-Yan Yeung Qiang Xu Kai Zhang DiffM 113 21 0 20 Mar 2024
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis Yumeng Li William H. Beluch M. Keuper Dan Zhang Anna Khoreva DiffM VGen 71 5 0 20 Mar 2024
ST-LDM: A Universal Framework for Text-Grounded Object Generation in Real Images Xiangtian Xue Jiasong Wu Youyong Kong L. Senhadji Huazhong Shu DiffM 28 1 0 15 Mar 2024
SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data Jialu Li Jaemin Cho Yi-Lin Sung Jaehong Yoon Mohit Bansal MoMe DiffM 34 8 0 11 Mar 2024
DivCon: Divide and Conquer for Progressive Text-to-Image Generation Yuhao Jia Wenhan Tan DiffM 31 1 0 11 Mar 2024
HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances Supreeth Narasimhaswamy Uttaran Bhattacharya Xiang Chen Ishita Dasgupta Saayan Mitra Minh Hoai DiffM 24 23 0 04 Mar 2024
Improving Explicit Spatial Relationships in Text-to-Image Generation through an Automatically Derived Dataset Ander Salaberria Gorka Azkune Oier López de Lacalle A. Soroa Eneko Agirre Frank Keller EGVM 19 2 0 01 Mar 2024
SDDGR: Stable Diffusion-based Deep Generative Replay for Class Incremental Object Detection Junsu Kim Hoseong Cho Jihyeon Kim Yihalem Yimolal Tiruneh Seungryul Baek DiffM 23 20 0 27 Feb 2024
RealCompo: Balancing Realism and Compositionality Improves Text-to-Image Diffusion Models Xinchen Zhang Ling Yang Yaqi Cai Zhaochen Yu Kai-Ni Wang ... Ye Tian Minkai Xu Yong Tang Yujiu Yang Bin Cui DiffM 27 5 0 20 Feb 2024
Mitigating Object Hallucination in Large Vision-Language Models via Classifier-Free Guidance Linxi Zhao Yihe Deng Weitong Zhang Quanquan Gu MLLM 15 30 0 13 Feb 2024
InstanceDiffusion: Instance-level Control for Image Generation Xudong Wang Trevor Darrell Sai Saketh Rambhatla Rohit Girdhar Ishan Misra VLM DiffM 19 81 0 05 Feb 2024
Boximator: Generating Rich and Controllable Motions for Video Synthesis Jiawei Wang Yuchen Zhang Jiaxin Zou Yan Zeng Guoqiang Wei Liping Yuan Hang Li DiffM VGen 19 42 0 02 Feb 2024
Diffusion Facial Forgery Detection Harry Cheng Yangyang Guo Tianyi Wang L. Nie Mohan S. Kankanhalli 56 16 0 29 Jan 2024
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs Ling Yang Zhaochen Yu Chenlin Meng Minkai Xu Stefano Ermon Bin Cui CoGe DiffM 24 113 0 22 Jan 2024
Bring Metric Functions into Diffusion Models Jie An Zhengyuan Yang Jianfeng Wang Linjie Li Zicheng Liu Lijuan Wang Jiebo Luo DiffM 19 4 0 04 Jan 2024
DreamDistribution: Learning Prompt Distribution for Diverse In-distribution Generation Brian Nlong Zhao Yuhang Xiao Jiashu Xu Xinyang Jiang Yifan Yang Dongsheng Li Laurent Itti Vibhav Vineet Yunhao Ge VLM 99 7 0 21 Dec 2023
The Lottery Ticket Hypothesis in Denoising: Towards Semantic-Driven Initialization Jiafeng Mao Xueting Wang Kiyoharu Aizawa DiffM 45 3 0 13 Dec 2023
4M: Massively Multimodal Masked Modeling David Mizrahi Roman Bachmann Ouguzhan Fatih Kar Teresa Yeo Mingfei Gao Afshin Dehghan Amir Zamir MLLM 28 62 0 11 Dec 2023
InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models Jiun Tian Hoe Xudong Jiang Chee Seng Chan Yap-Peng Tan Weipeng Hu 11 11 0 10 Dec 2023
ControlRoom3D: Room Generation using Semantic Proxy Rooms Jonas Schult Sam S. Tsai Lukas Höllein Bichen Wu Jialiang Wang ... Zijian He Peizhao Zhang Bastian Leibe Peter Vajda Ji Hou 17 31 0 08 Dec 2023
Fine-grained Controllable Video Generation via Object Appearance and Context Hsin-Ping Huang Yu-Chuan Su Deqing Sun Lu Jiang Xuhui Jia Yukun Zhu Ming-Hsuan Yang DiffM VGen 13 13 0 05 Dec 2023
Self-correcting LLM-controlled Diffusion Models Tsung-Han Wu Long Lian Joseph E. Gonzalez Boyi Li Trevor Darrell 60 52 0 27 Nov 2023
Check, Locate, Rectify: A Training-Free Layout Calibration System for Text-to-Image Generation Biao Gong Siteng Huang Yutong Feng Shiwei Zhang Yuyuan Li Yu Liu DiffM 10 11 0 27 Nov 2023
LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis Peiang Zhao Han Li Ruiyang Jin S. Kevin Zhou DiffM 33 12 0 21 Nov 2023
BiomedJourney: Counterfactual Biomedical Image Generation by Instruction-Learning from Multimodal Patient Journeys Yu Gu Jianwei Yang Naoto Usuyama Chun-yue Li Sheng Zhang M. Lungren Jianfeng Gao Hoifung Poon MedIm 17 22 0 16 Oct 2023
LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts Hanan Gani Shariq Farooq Bhat Muzammal Naseer Salman Khan Peter Wonka DiffM 34 37 0 16 Oct 2023
Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation Zhengyuan Yang Jianfeng Wang Linjie Li Kevin Qinghong Lin Chung-Ching Lin Zicheng Liu Lijuan Wang LRM MLLM DiffM 11 22 0 12 Oct 2023
Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models Hyeonho Jeong Jong Chul Ye DiffM VGen 15 41 0 02 Oct 2023
Completing Visual Objects via Bridging Generation and Segmentation Xiang Li Yinpeng Chen Chung-Ching Lin Hao Chen Kai Hu Rita Singh Bhiksha Raj Lijuan Wang Zicheng Liu DiffM 14 4 0 01 Oct 2023