Kosmos-G: Generating Images in Context with Multimodal Large Language Models

4 October 2023

Papers citing "Kosmos-G: Generating Images in Context with Multimodal Large Language Models"

8 / 58 papers shown

Title
LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing Wei-Ge Chen Irina Spiridonova Jianwei Yang Jianfeng Gao Chun-yue Li MLLM VLM 15 34 0 01 Nov 2023
TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild Huayang Li Siheng Li Deng Cai Longyue Wang Lemao Liu Taro Watanabe Yujiu Yang Shuming Shi MLLM 55 17 0 14 Sep 2023
Key-Locked Rank One Editing for Text-to-Image Personalization Yoad Tewel Rinon Gal Gal Chechik Yuval Atzmon DiffM 146 168 0 02 May 2023
In-Context Learning Unlocked for Diffusion Models Zhendong Wang Yi Ding Yadong Lu Yelong Shen Pengcheng He Weizhu Chen Zhangyang Wang Mingyuan Zhou VLM DiffM 96 68 0 01 May 2023
Continual Diffusion: Continual Customization of Text-to-Image Diffusion with C-LoRA James Smith Yen-Chang Hsu Lingyu Zhang Ting Hua Z. Kira Yilin Shen Hongxia Jin DiffM 134 97 0 12 Apr 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 322 4,300 0 30 Jan 2023
Re-Imagen: Retrieval-Augmented Text-to-Image Generator Wenhu Chen Hexiang Hu Chitwan Saharia William W. Cohen VLM 131 164 0 29 Sep 2022
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 323 1,086 0 17 Feb 2021