Title
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models Yanwei Li Yuechen Zhang Chengyao Wang Zhisheng Zhong Yixin Chen Ruihang Chu Shaoteng Liu Jiaya Jia VLM MLLM MoE 29 210 0 27 Mar 2024
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023

M2^{2}2Chat: Empowering VLM for Multimodal LLM Interleaved Text-Image Generation

Papers citing "M$^{2}$Chat: Empowering VLM for Multimodal LLM Interleaved Text-Image Generation"