Foundation Model is Efficient Multimodal Multitask Model Selector

Foundation Model is Efficient Multimodal Multitask Model Selector

11 August 2023

Yu Qiao

Ping Luo

Papers citing "Foundation Model is Efficient Multimodal Multitask Model Selector"

9 / 9 papers shown

Title
Vision-Language Model Selection and Reuse for Downstream Adaptation Hao-Zhe Tan Zhi-Hua Zhou Lan-Zhe Guo Yu-Feng Li VLM 88 0 0 30 Jan 2025
FedBaF: Federated Learning Aggregation Biased by a Foundation Model Jong-Ik Park Srinivasa Pranav J. M. F. Moura Carlee Joe-Wong AI4CE 68 2 0 24 Oct 2024
Towards Robust Multi-Modal Reasoning via Model Selection Xiangyan Liu Rongxue Li Wei Ji Tao Lin LLMAG LRM 22 3 0 12 Oct 2023
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 388 4,010 0 28 Jan 2022
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Zhao Yang Jiaqi Wang Yansong Tang Kai-xiang Chen Hengshuang Zhao Philip H. S. Torr 133 308 0 04 Dec 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 283 5,723 0 29 Apr 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 263 3,538 0 24 Feb 2021
Densely Connected Convolutional Networks Gao Huang Zhuang Liu L. V. D. van der Maaten Kilian Q. Weinberger PINN 3DV 244 35,884 0 25 Aug 2016
Efficient Estimation of Word Representations in Vector Space Tomáš Mikolov Kai Chen G. Corrado J. Dean 3DV 228 31,150 0 16 Jan 2013