VisualBERT: A Simple and Performant Baseline for Vision and Language

9 August 2019

Papers citing "VisualBERT: A Simple and Performant Baseline for Vision and Language"

50 / 1,260 papers shown

ChestGPT: Integrating Large Language Models and Vision Transformers for Disease Detection and Localization in Chest X-Rays

164

04 Jul 2025

VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning

387

20 Jun 2025

Understanding GUI Agent Localization Biases through Logit Sharpness

179

18 Jun 2025

Privacy-Shielded Image Compression: Defending Against Exploitation from Vision-Language Pretrained Models

256

18 Jun 2025

Segmenting Visuals With Querying Words: Language Anchors For Semi-Supervised Image Segmentation

303

16 Jun 2025

RollingQ: Reviving the Cooperation Dynamics in Multimodal Transformer

295

13 Jun 2025

Manager: Aggregating Insights from Unimodal Experts in Two-Tower VLMs and MLLMs

308

13 Jun 2025

Vision Generalist Model: A SurveyInternational Journal of Computer Vision (IJCV), 2025

...

305

11 Jun 2025

Multimodal Representation Alignment for Cross-modal Information Retrieval

Fan Xu

Luis A. Leiva

224

10 Jun 2025

OpenFace 3.0: A Lightweight Multitask System for Comprehensive Facial Behavior AnalysisIEEE International Conference on Automatic Face & Gesture Recognition (FG), 2025

Jiewen Hu

Leena Mathur

Paul Pu Liang

Louis-Philippe Morency

CVBM

198

03 Jun 2025

MINT: Multimodal Instruction Tuning with Multimodal Interaction Grouping

304

02 Jun 2025

What's Missing in Vision-Language Models? Probing Their Struggles with Causal Order Reasoning

201

01 Jun 2025

FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning EvaluationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

...

199

30 May 2025

Multi-MLLM Knowledge Distillation for Out-of-Context News Detection

173

28 May 2025

LifeIR at the NTCIR-18 Lifelog-6 TaskNTCIR Conference on Evaluation of Information Access Technologies (NTCIR), 2025

Jiahan Chen

Da Li

Keping Bi

172

27 May 2025

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

282

26 May 2025

Multi-modal brain encoding models for multi-modal stimuliInternational Conference on Learning Representations (ICLR), 2025

190

26 May 2025

Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content DetectionIEEE Transactions on Artificial Intelligence (IEEE TAI), 2025

457

25 May 2025

Visual Question Answering on Multiple Remote Sensing Image Modalities

177

21 May 2025

Domain Adaptation of VLM for Soccer Video Understanding

378

20 May 2025

TS-VLM: Text-Guided SoftSort Pooling for Vision-Language Models in Multi-View Driving Reasoning

330

19 May 2025

Multi-modal contrastive learning adapts to intrinsic dimensions of shared latent variables

334

18 May 2025

Hyperspectral Image Land Cover Captioning Dataset for Vision Language Models

242

18 May 2025

GeoMM: On Geodesic Perspective for Multi-modal LearningComputer Vision and Pattern Recognition (CVPR), 2025

Shibin Mei

Hang Wang

Bingbing Ni

317

16 May 2025

Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis

343

15 May 2025

Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training

361

13 May 2025

Probabilistic Embeddings for Frozen Vision-Language Models: Uncertainty Quantification with Gaussian Process Latent Variable ModelsConference on Uncertainty in Artificial Intelligence (UAI), 2025

Aishwarya Venkataramanan

P. Bodesheim

Joachim Denzler

BDL VLM

415

08 May 2025

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

...

1.2K

05 May 2025

Detecting and Mitigating Hateful Content in Multimodal Memes with Vision-Language Models

Minh-Hao Van

Xintao Wu

VLM

366

30 Apr 2025

Multimodal Large Language Models for Medicine: A Comprehensive Survey

Jiarui Ye

Hao Tang

LM&MA

501

29 Apr 2025

A Survey of Task-Oriented Knowledge Graph Reasoning: Status, Applications, and Prospects

273

27 Apr 2025

Multimodal graph representation learning for website generation based on visual sketch

308

25 Apr 2025

ShapeSpeak: Body Shape-Aware Textual Alignment for Visible-Infrared Person Re-Identification

1.0K

25 Apr 2025

A Genealogy of Foundation Models in Remote Sensing

Kevin Lane

Morteza Karimzadeh

367

24 Apr 2025

Detecting and Understanding Hateful Contents in Memes Through Captioning and Visual Question-AnsweringInternational Conference on Conceptual Structures (ICCS), 2025

261

23 Apr 2025

FrogDogNet: Fourier frequency Retained visual prompt Output Guidance for Domain Generalization of CLIP in Remote Sensing

Hariseetharam Gunduboina

Muhammad Haris Khan

Biplab Banerjee

VLM

296

23 Apr 2025

OmniV-Med: Scaling Medical Vision-Language Model for Universal Visual Understanding

260

20 Apr 2025

HAVT-IVD: Heterogeneity-Aware Cross-Modal Network for Audio-Visual Surveillance: Idling Vehicles Detection With Multichannel Audio and Multiscale Visual Cues

Xiwen Li

Ross T. Whitaker

Tolga Tasdizen

293

15 Apr 2025

TSAL: Few-shot Text Segmentation Based on Attribute Learning

341

15 Apr 2025

Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical ImagingInternational Journal of Machine Learning and Cybernetics (IJMLC), 2025

226

09 Apr 2025

DiffusionCom: Structure-Aware Multimodal Diffusion Model for Multimodal Knowledge Graph Completion

276

09 Apr 2025

A Lightweight Large Vision-language Model for Multimodal Medical Images

264

08 Apr 2025

SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge RefinementAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

...

476

04 Apr 2025

ANNEXE: Unified Analyzing, Answering, and Pixel Grounding for Egocentric InteractionComputer Vision and Pattern Recognition (CVPR), 2025

268

02 Apr 2025

Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation

438

25 Mar 2025

FedMM-X: A Trustworthy and Interpretable Framework for Federated Multi-Modal Learning in Dynamic Environments

Sree Bhargavi Balija

FedML

192

25 Mar 2025

Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation

505

23 Mar 2025

Seeing What Matters: Empowering CLIP with Patch Generation-to-SelectionComputer Vision and Pattern Recognition (CVPR), 2025

311

21 Mar 2025

A Survey on fMRI-based Brain Decoding for Reconstructing Multimodal Stimuli

268

20 Mar 2025

FusDreamer: Label-efficient Remote Sensing World Model for Multimodal Data ClassificationIEEE Transactions on Geoscience and Remote Sensing (IEEE TGRS), 2025

356

18 Mar 2025