Multimodal Foundation Models: From Specialists to General-Purpose
Assistants

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

18 September 2023

Jianwei Yang

Papers citing "Multimodal Foundation Models: From Specialists to General-Purpose Assistants"

16 / 16 papers shown

Title
Reducing Annotation Burden in Physical Activity Research Using Vision-Language Models Abram Schonfeldt Benjamin Maylor Xiaofang Chen Ronald Clark Aiden Doherty 55 0 0 06 May 2025
DYSTIL: Dynamic Strategy Induction with Large Language Models for Reinforcement Learning Borui Wang Kathleen McKeown Rex Ying OffRL 22 0 0 06 May 2025
Task-Oriented Semantic Communication in Large Multimodal Models-based Vehicle Networks Baoxia Du H. Du Dusit Niyato Ruidong Li 44 0 0 05 May 2025
How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game Z. Wang Yurui Dong Fuwen Luo Minyuan Ruan Zhili Cheng C. L. P. Chen Peng Li Yang Liu LRM 77 0 0 13 Mar 2025
Enhancing Collective Intelligence in Large Language Models Through Emotional Integration Likith Kadiyala Ramteja Sajja Y. Sermet Ibrahim Demir 35 0 0 05 Mar 2025
Beyond Text: Implementing Multimodal Large Language Model-Powered Multi-Agent Systems Using a No-Code Platform Cheonsu Jeong 58 0 0 01 Jan 2025
An Intelligent Agentic System for Complex Image Restoration Problems Kaiwen Zhu Jinjin Gu Zhiyuan You Yu Qiao Chao Dong 21 6 0 23 Oct 2024
FEDKIM: Adaptive Federated Knowledge Injection into Medical Foundation Models Xiaochen Wang Jiaqi Wang Houping Xiao J. Chen Fenglong Ma MedIm 55 7 0 17 Aug 2024
Evolver: Chain-of-Evolution Prompting to Boost Large Multimodal Models for Hateful Meme Detection Jinfa Huang Jinsheng Pan Zhongwei Wan Hanjia Lyu Jiebo Luo 40 4 0 30 Jul 2024
How Culturally Aware are Vision-Language Models? Olena Burda-Lassen Aman Chadha Shashank Goswami Vinija Jain VLM 16 0 0 24 May 2024
AnomalyDINO: Boosting Patch-based Few-shot Anomaly Detection with DINOv2 Simon Damm M. Laszkiewicz Johannes Lederer Asja Fischer 34 3 0 23 May 2024
List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs An Yan Zhengyuan Yang Junda Wu Wanrong Zhu Jianwei Yang ... K. Lin Jianfeng Wang Julian McAuley Jianfeng Gao Lijuan Wang LRM 24 12 0 25 Apr 2024
On the Challenges and Opportunities in Generative AI Laura Manduchi Kushagra Pandey Robert Bamler Ryan Cotterell Sina Daubener ... F. Wenzel Frank Wood Stephan Mandt Vincent Fortuin Vincent Fortuin 35 17 0 28 Feb 2024
SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering Xiaopeng Li Shasha Li Shezheng Song Huijun Liu Bing Ji ... Jun Ma Jie Yu Xiaodong Liu Jing Wang Weimin Zhang KELM 14 3 0 31 Jan 2024
Detecting Multimedia Generated by Large AI Models: A Survey Li Lin Neeraj Gupta Yue Zhang Hainan Ren Chun-Hao Liu Feng Ding Xin Eric Wang X. Li Luisa Verdoliva Shu Hu 54 53 0 22 Jan 2024
What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning Yifan Du Hangyu Guo Kun Zhou Wayne Xin Zhao Jinpeng Wang Chuyuan Wang Mingchen Cai Ruihua Song Ji-Rong Wen VLM MLLM LRM 28 22 0 02 Nov 2023