FlexEControl: Flexible and Efficient Multimodal Control for
Text-to-Image Generation

FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation

8 May 2024

Jacob Zhiyuan Fang

Robinson Piramuthu

Mohit Bansal

Vicente Ordonez

Gunnar A. Sigurdsson

Papers citing "FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation"

9 / 9 papers shown

Title
Mojito: Motion Trajectory and Intensity Control for Video Generation Xuehai He Shuohang Wang Jianwei Yang Xiaoxia Wu Y. Wang Kuan-Chieh Jackson Wang Z. Zhan Olatunji Ruwase Yelong Shen X. Wang VGen 83 1 0 12 Dec 2024
Multimodal Graph Transformer for Multimodal Question Answering Xuehai He Xin Eric Wang 22 7 0 30 Apr 2023
Training-Free Layout Control with Cross-Attention Guidance Minghao Chen Iro Laina Andrea Vedaldi DiffM 124 217 0 06 Apr 2023
Muse: Text-To-Image Generation via Masked Generative Transformers Huiwen Chang Han Zhang Jarred Barber AJ Maschinot José Lezama ... Kevin Patrick Murphy William T. Freeman Michael Rubinstein Yuanzhen Li Dilip Krishnan DiffM 197 515 0 02 Jan 2023
Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling Renrui Zhang Rongyao Fang Wei Zhang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 184 384 0 06 Nov 2021
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 278 3,784 0 18 Apr 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,735 0 24 Feb 2021
Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference Timo Schick Hinrich Schütze 256 1,584 0 21 Jan 2020
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 229 74,467 0 18 May 2015