mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video

International Conference on Machine Learning (ICML), 2023

1 February 2023

Jiabo Ye

Ji Zhang

Jingren Zhou

ArXiv (abs)PDF HTML Github (2045★)

Papers citing "mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video"

50 / 123 papers shown

MemVerse: Multimodal Memory for Lifelong Learning Agents

...

275

03 Dec 2025

Axial Neural Networks for Dimension-Free Foundation Models

209

15 Oct 2025

Image-to-Video Transfer Learning based on Image-Language Foundation Models: A Comprehensive Survey

252

12 Oct 2025

A TRIANGLE Enables Multimodal Alignment Beyond Cosine Similarity

Giordano Cicchetti

Eleonora Grassucci

Danilo Comminiello

204

29 Sep 2025

Cinéaste: A Fine-grained Contextual Movie Question Answering Benchmark

178

17 Sep 2025

Hybrid-Tower: Fine-grained Pseudo-query Interaction and Generation for Text-to-Video Retrieval

192

05 Sep 2025

VQualA 2025 Challenge on Engagement Prediction for Short Videos: Methods and Results

...

140

03 Sep 2025

VideoMind: An Omni-Modal Video Dataset with Intent Grounding for Deep-Cognitive Video Understanding

193

24 Jul 2025

Principled Multimodal Representation Learning

362

23 Jul 2025

UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks

272

15 Jul 2025

Identify, Isolate, and Purge: Mitigating Hallucinations in LVLMs via Self-Evolving Distillation

284

07 Jul 2025

Q2E: Query-to-Event Decomposition for Zero-Shot Multilingual Text-to-Video Retrieval

Shubhashis Roy Dipta

Francis Ferraro

342

11 Jun 2025

Outside Knowledge Conversational Video (OKCV) Dataset -- Dialoguing over Videos

250

11 Jun 2025

DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO

458

09 Jun 2025

Understanding Complexity in VideoQA via Visual Program Generation

335

19 May 2025

AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations

627

10 Apr 2025

REEF: Relevance-Aware and Efficient LLM Adapter for Video Understanding

322

07 Apr 2025

Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

...

370

07 Apr 2025

Group-based Distinctive Image Captioning with Memory Difference Encoding and AttentionInternational Journal of Computer Vision (IJCV), 2024

500

03 Apr 2025

MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning

670

26 Mar 2025

Can Text-to-Video Generation help Video-Language Alignment?Computer Vision and Pattern Recognition (CVPR), 2025

372

24 Mar 2025

HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video UnderstandingComputer Vision and Pattern Recognition (CVPR), 2025

1.1K

11 Mar 2025

Towards Fine-Grained Video Question Answering

329

10 Mar 2025

IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word EmphasisAAAI Conference on Artificial Intelligence (AAAI), 2025

367

02 Mar 2025

Pretrained Image-Text Models are Secretly Video CaptionersNorth American Chapter of the Association for Computational Linguistics (NAACL), 2025

598

20 Feb 2025

Natural Language Generation from Visual Events: State-of-the-Art and Key Open Questions

1.2K

18 Feb 2025

HCMRM: A High-Consistency Multimodal Relevance Model for Search AdsThe Web Conference (WWW), 2025

321

09 Feb 2025

Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and ReactionComputer Vision and Pattern Recognition (CVPR), 2025

373

06 Jan 2025

Sound-VECaps: Improving Audio Generation with Visual Enhanced Captions

...

466

03 Jan 2025

Do Language Models Understand Time?The Web Conference (WWW), 2024

Xi Ding

Lei Wang

1.0K

18 Dec 2024

Gramian Multimodal Representation Learning and AlignmentInternational Conference on Learning Representations (ICLR), 2024

552

16 Dec 2024

FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any GranularityComputer Vision and Pattern Recognition (CVPR), 2024

403

23 Nov 2024

Spider: Any-to-Many Multimodal LLM

669

14 Nov 2024

PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures

172

30 Oct 2024

Sensor2Text: Enabling Natural Language Interactions for Daily Activity Tracking Using Wearable SensorsProceedings of the ACM on Interactive Mobile Wearable and Ubiquitous Technologies (IMWUT), 2024

340

26 Oct 2024

AuroraCap: Efficient, Performant Video Detailed Captioning and a New BenchmarkInternational Conference on Learning Representations (ICLR), 2024

Christopher D. Manning

3DV

826

118

04 Oct 2024

Delving Deep into Engagement Prediction of Short VideosEuropean Conference on Computer Vision (ECCV), 2024

Wenjie Li

Hongsheng Li

Jian Wang

459

30 Sep 2024

SimVG: A Simple Framework for Visual Grounding with Decoupled Multi-modal FusionNeural Information Processing Systems (NeurIPS), 2024

Wankou Yang

492

26 Sep 2024

From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models

474

19 Sep 2024

Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language ModelsAAAI Conference on Artificial Intelligence (AAAI), 2024

354

16 Sep 2024

Enhancing Long Video Understanding via Hierarchical Event-Based Memory

Jingyu Liu

Xi Chen

317

10 Sep 2024

IVGF: The Fusion-Guided Infrared and Visible General Framework

441

02 Sep 2024

I2EBench: A Comprehensive Benchmark for Instruction-based Image EditingNeural Information Processing Systems (NeurIPS), 2024

Jiayi Ji

Xiaoshuai Sun

Rongrong Ji

345

26 Aug 2024

T2VIndexer: A Generative Video Indexer for Efficient Text-Video RetrievalACM Multimedia (MM), 2024

Yili Li

Jing Yu

Gang Xiong

271

21 Aug 2024

EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval

Thomas Hummel

Shyamgopal Karthik

Mariana-Iuliana Georgescu

Zeynep Akata

EgoV

474

23 Jul 2024

WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding

...

212

22 Jul 2024

Tarsier: Recipes for Training and Evaluating Large Video Description Models

Jiawei Wang

Liping Yuan

Yuchen Zhang

345

135

30 Jun 2024

Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts

Aditya Sharma

Michael Saxon

William Yang Wang

VLM

306

24 Jun 2024

UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos

Yuting Mei

Linli Yao

Qin Jin

255

24 Jun 2024

Long Story Short: Story-level Video Understanding from 20K Short Films

Xi Wang

253

14 Jun 2024