MoME: Mixture of Multimodal Experts for Generalist Multimodal Large
Language Models

MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models

17 July 2024

Papers citing "MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models"

8 / 8 papers shown

Title
CoTBal: Comprehensive Task Balancing for Multi-Task Visual Instruction Tuning Yanqi Dai Dong Jing Nanyi Fei Zhiwu Lu Nanyi Fei Guoxing Yang Zhiwu Lu 43 2 0 07 Mar 2024
Multimodal Instruction Tuning with Conditional Mixture of LoRA Ying Shen Zhiyang Xu Qifan Wang Yu Cheng Wenpeng Yin Lifu Huang 31 12 0 24 Feb 2024
LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge Gongwei Chen Leyang Shen Rui Shao Xiang Deng Liqiang Nie VLM MLLM 50 38 0 20 Nov 2023
MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning Jun Chen Deyao Zhu Xiaoqian Shen Xiang Li Zechun Liu Pengchuan Zhang Raghuraman Krishnamoorthi Vikas Chandra Yunyang Xiong Mohamed Elhoseiny MLLM 152 280 0 14 Oct 2023
UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model Jiabo Ye Anwen Hu Haiyang Xu Qinghao Ye Mingshi Yan ... Ji Zhang Qin Jin Liang He Xin Lin Feiyan Huang VLM MLLM 118 83 0 08 Oct 2023
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding Kenton Lee Mandar Joshi Iulia Turc Hexiang Hu Fangyu Liu Julian Martin Eisenschlos Urvashi Khandelwal Peter Shaw Ming-Wei Chang Kristina Toutanova CLIP VLM 148 259 0 07 Oct 2022
AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition Shoufa Chen Chongjian Ge Zhan Tong Jiangliu Wang Yibing Song Jue Wang Ping Luo 138 631 0 26 May 2022
Categorical Reparameterization with Gumbel-Softmax Eric Jang S. Gu Ben Poole BDL 75 5,262 0 03 Nov 2016