v1v2v3 (latest)

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

Machine Intelligence Research (MIR), 2023

20 February 2023

Yaowei Wang

Yonghong Tian

Wen Gao

AI4CE

VLM

ArXiv (abs)PDF HTML Github (286★)

Papers citing "Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey"

50 / 127 papers shown

An Empirical Study of Mamba-based Pedestrian Attribute Recognition

Chenglong Li

263

15 Jul 2024

JailbreakHunter: A Visual Analytics Approach for Jailbreak Prompts Discovery from Large-Scale Human-LLM Conversational Datasets

250

03 Jul 2024

Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition

Lan Chen

Dong Li

Xiao Wang

Pengpeng Shao

Wei Zhang

Yaowei Wang

Yonghong Tian

Jin Tang

252

27 Jun 2024

InFiConD: Interactive No-code Fine-tuning with Concept-based Knowledge Distillation

Liang Gou

358

25 Jun 2024

GraphPipe: Improving Performance and Scalability of DNN Training with Graph Pipeline Parallelism

Sunghyun Park

...

212

24 Jun 2024

Unlocking the Future: Exploring Look-Ahead Planning Mechanistic Interpretability in Large Language Models

Kang Liu

Jun Zhao

LLMAG AIFin

236

23 Jun 2024

Details Make a Difference: Object State-Sensitive Neurorobotic Task PlanningInternational Conference on Artificial Neural Networks (ICANN), 2024

Stefan Wermter

221

14 Jun 2024

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

...

623

848

31 May 2024

The Evolution of Multimodal Model Architectures

321

28 May 2024

MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance

Yake Wei

Di Hu

298

28 May 2024

A Survey on Vision-Language-Action Models for Embodied AI

885

166

23 May 2024

Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition

Yaowei Wang

Yonghong Tian

ViT

281

27 Apr 2024

Pre-training on High Definition X-ray Images: An Experimental Study

269

27 Apr 2024

Beyond Pixel-Wise Supervision for Medical Image Segmentation: From Traditional Models to Foundation Models

278

20 Apr 2024

State Space Model for New-Generation Network Alternative to Transformers: A Survey

...

Chenglong Li

Yaowei Wang

Yonghong Tian

Jin Tang

Mamba

405

15 Apr 2024

Foundation Model for Advancing Healthcare: Challenges, Opportunities, and Future DirectionsIEEE Reviews in Biomedical Engineering (RBME), 2024

Hao Chen

363

04 Apr 2024

Continual Learning for Smart City: A Survey

266

01 Apr 2024

Heterogeneous Contrastive Learning for Foundation Models and Beyond

237

30 Mar 2024

Generative Multi-modal Models are Good Class-Incremental Learners

Ming-Ming Cheng

311

27 Mar 2024

LSKNet: A Foundation Lightweight Backbone for Remote SensingInternational Journal of Computer Vision (IJCV), 2024

Xiang Li

Ming-Ming Cheng

Jian Yang

346

103

18 Mar 2024

Continual Forgetting for Pre-trained Vision ModelsComputer Vision and Pattern Recognition (CVPR), 2024

325

18 Mar 2024

Tri-Modal Motion Retrieval by Learning a Joint Embedding Space

220

01 Mar 2024

OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web

491

105

27 Feb 2024

Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions

542

20 Feb 2024

Mapping the Ethics of Generative AI: A Comprehensive Scoping Review

Thilo Hagendorff

253

13 Feb 2024

The RL/LLM Taxonomy Tree: Reviewing Synergies Between Reinforcement Learning and Large Language Models

248

02 Feb 2024

Merging Multi-Task Models via Weight-Ensembling Mixture of Experts

Li Shen

Nan Yin

304

01 Feb 2024

SimAda: A Simple Unified Framework for Adapting Segment Anything Model in Underperformed Scenes

256

31 Jan 2024

Segment Anything Model for Medical Image Segmentation: Current Applications and Future Directions

305

257

07 Jan 2024

Training and Serving System of Foundation Models: A Comprehensive Survey

221

05 Jan 2024

BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything ModelComputer Vision and Pattern Recognition (CVPR), 2024

503

04 Jan 2024

Self-supervised Pretraining for Decision Foundation Model: Formulation, Pipeline and Challenges

329

29 Dec 2023

LLM4EDA: Emerging Progress in Large Language Models for Electronic Design Automation

Jianye Hao

197

28 Dec 2023

Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video Recognition

Yonghong Tian

376

18 Dec 2023

Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion

Chenglong Li

205

17 Dec 2023

M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base

Zhixu Li

245

16 Dec 2023

Structural Information Guided Multimodal Pre-training for Vehicle-centric PerceptionAAAI Conference on Artificial Intelligence (AAAI), 2023

Chenglong Li

220

15 Dec 2023

UniDream: Unifying Diffusion Priors for Relightable Text-to-3D GenerationEuropean Conference on Computer Vision (ECCV), 2023

Xiaoshui Huang

Wanli Ouyang

219

14 Dec 2023

SequencePAR: Understanding Pedestrian Attributes via A Sequence Generation ParadigmPattern Recognition (Pattern Recogn.), 2023

185

04 Dec 2023

Semantic-Aware Frame-Event Fusion based Pattern Recognition via Large Vision-Language Models

243

30 Nov 2023

Contrastive Vision-Language Alignment Makes Efficient Instruction Learner

175

29 Nov 2023

Multimodal Large Language Models: A SurveyBigData Congress [Services Society] (BSS), 2023

Jiayang Wu

Wensheng Gan

Zefeng Chen

Shicheng Wan

Philip S. Yu

231

303

22 Nov 2023

Vision-Language Instruction Tuning: A Review and Analysis

Ying Shan

319

14 Nov 2023

Enhancing the Spatial Awareness Capability of Multi-Modal Large Language Model

193

31 Oct 2023

VcT: Visual change Transformer for Remote Sensing Image Change DetectionIEEE Transactions on Geoscience and Remote Sensing (TGRS), 2023

206

17 Oct 2023

UniPAD: A Universal Pre-training Paradigm for Autonomous DrivingComputer Vision and Pattern Recognition (CVPR), 2023

Di Huang

...

Wanli Ouyang

295

12 Oct 2023

Argumentative Stance Prediction: An Exploratory Study on Multimodality and Few-Shot LearningWorkshop on Argument Mining (ArgMining), 2023

Arushi Sharma

Abhibha Gupta

Maneesh Bilalpur

182

11 Oct 2023

SNIP: Bridging Mathematical Symbolic and Numeric Realms with Unified Pre-trainingInternational Conference on Learning Representations (ICLR), 2023

359

03 Oct 2023

Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous DrivingIEEE International Conference on Robotics and Automation (ICRA), 2023

Andrew James Willmott

Danny Birch

Daniel Maund

Jamie Shotton

MLLM

388

293

03 Oct 2023

Natural Language based Context Modeling and Reasoning for Ubiquitous Computing with Large Language Models: A Tutorial

Haoyi Xiong

Jiang Bian

275

24 Sep 2023