ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

Neural Information Processing Systems (NeurIPS), 2019

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,232 papers shown

Describe Anything Model for Visual Question Answering on Text-rich Images

...

280

16 Jul 2025

ChordPrompt: Orchestrating Cross-Modal Prompt Synergy for Multi-Domain Incremental Learning in CLIP

Zhiyuan Wang

Bokui Chen

VLM LRM

210

24 Jun 2025

LaVi: Efficient Large Vision-Language Models via Internal Feature Modulation

162

20 Jun 2025

Stepping Out of Similar Semantic Space for Open-Vocabulary Segmentation

330

19 Jun 2025

Understanding GUI Agent Localization Biases through Logit Sharpness

175

18 Jun 2025

Segmenting Visuals With Querying Words: Language Anchors For Semi-Supervised Image Segmentation

300

16 Jun 2025

Dynamic Modality Scheduling for Multimodal Large Models via Confidence, Uncertainty, and Semantic Consistency

160

15 Jun 2025

Generative or Discriminative? Revisiting Text Classification in the Era of Transformers

187

13 Jun 2025

Manager: Aggregating Insights from Unimodal Experts in Two-Tower VLMs and MLLMs

308

13 Jun 2025

Intention-Conditioned Flow Occupancy Models

304

10 Jun 2025

MrM: Black-Box Membership Inference Attacks against Multimodal RAG Systems

168

09 Jun 2025

Representation Decomposition for Learning Similarity and Contrastness Across Modalities for Affective Computing

132

08 Jun 2025

OpenFace 3.0: A Lightweight Multitask System for Comprehensive Facial Behavior AnalysisIEEE International Conference on Automatic Face & Gesture Recognition (FG), 2025

Jiewen Hu

Leena Mathur

Paul Pu Liang

Louis-Philippe Morency

CVBM

183

03 Jun 2025

MINT: Multimodal Instruction Tuning with Multimodal Interaction Grouping

280

02 Jun 2025

GETReason: Enhancing Image Context Extraction through Hierarchical Multi-Agent ReasoningAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

342

28 May 2025

Flexible Tool Selection through Low-dimensional Attribute Alignment of Vision and Language

320

28 May 2025

E2E Process Automation Leveraging Generative AI and IDP-Based Automation Agent: A Case Study on Corporate Expense Processing

275

27 May 2025

Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content DetectionIEEE Transactions on Artificial Intelligence (IEEE TAI), 2025

444

25 May 2025

Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval

157

22 May 2025

R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO

...

299

22 May 2025

Large Language models for Time Series Analysis: Techniques, Applications, and Challenges

206

21 May 2025

Domain Adaptation of VLM for Soccer Video Understanding

366

20 May 2025

InstanceBEV: Unifying Instance and BEV Representation for 3D Panoptic Segmentation

Feng Li

Zhaoyue Wang

Mohammad Masum Billah

Yunduan Cui

Kun Xu

329

20 May 2025

ReactDiff: Latent Diffusion for Facial Reaction GenerationNeural Networks (NN), 2025

278

20 May 2025

Multi-modal contrastive learning adapts to intrinsic dimensions of shared latent variables

315

18 May 2025

Mitigating Hallucinations via Inter-Layer Consistency Aggregation in Large Vision-Language Models

484

18 May 2025

Enhanced Multimodal Hate Video Detection via Channel-wise and Modality-wise Fusion

245

17 May 2025

Open Set Domain Adaptation with Vision-language models via Gradient-aware SeparationApplied and Computational Engineering (ACE), 2025

Haoyang Chen

VLM

242

16 May 2025

GeoMM: On Geodesic Perspective for Multi-modal LearningComputer Vision and Pattern Recognition (CVPR), 2025

Shibin Mei

Hang Wang

Bingbing Ni

314

16 May 2025

DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic SegmentationComputer Vision and Pattern Recognition (CVPR), 2025

241

16 May 2025

On the Interplay of Human-AI Alignment,Fairness, and Performance Trade-offs in Medical ImagingInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025

Haozhe Luo

Ziyu Zhou

Zixin Shu

Aurélie Pahud de Mortanges

Robert Berke

Mauricio Reyes

226

15 May 2025

Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training

352

13 May 2025

Probabilistic Embeddings for Frozen Vision-Language Models: Uncertainty Quantification with Gaussian Process Latent Variable ModelsConference on Uncertainty in Artificial Intelligence (UAI), 2025

Aishwarya Venkataramanan

P. Bodesheim

Joachim Denzler

BDL VLM

410

08 May 2025

OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

895

07 May 2025

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

...

1.1K

05 May 2025

Compositional Image-Text Matching and Retrieval by Grounding Entities

Madhukar Reddy Vongala

Saurabh Srivastava

Jana Kosecka

CLIP CoGe VLM

220

04 May 2025

A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI

394

01 May 2025

Synergy-CLIP: Extending CLIP with Multi-modal Integration for Robust Representation LearningIEEE Access (IEEE Access), 2025

452

30 Apr 2025

Detecting and Mitigating Hateful Content in Multimodal Memes with Vision-Language Models

Minh-Hao Van

Xintao Wu

VLM

365

30 Apr 2025

DOPE: Dual Object Perception-Enhancement Network for Vision-and-Language NavigationInternational Conference on Multimedia Retrieval (ICMR), 2025

Yinfeng Yu

Dongsheng Yang

344

30 Apr 2025

Multimodal Large Language Models for Medicine: A Comprehensive Survey

Jiarui Ye

Hao Tang

LM&MA

484

29 Apr 2025

Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI

923

28 Apr 2025

A Survey of Task-Oriented Knowledge Graph Reasoning: Status, Applications, and Prospects

273

27 Apr 2025

ShapeSpeak: Body Shape-Aware Textual Alignment for Visible-Infrared Person Re-Identification

1.0K

25 Apr 2025

A Genealogy of Foundation Models in Remote Sensing

Kevin Lane

Morteza Karimzadeh

350

24 Apr 2025

Detecting and Understanding Hateful Contents in Memes Through Captioning and Visual Question-AnsweringInternational Conference on Conceptual Structures (ICCS), 2025

255

23 Apr 2025

VLM as Policy: Common-Law Content Moderation Framework for Short Video Platform

...

242

21 Apr 2025

EmoSEM: Segment and Explain Emotion Stimuli in Visual Art

304

20 Apr 2025

Hadamard product in deep learning: Introduction, Advances and ChallengesIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

348

17 Apr 2025

DeepMLF: Multimodal language model with learnable tokens for deep fusion in sentiment analysis

Efthymios Georgiou

Vassilis Katsouros

Yannis Avrithis

Alexandros Potamianos

394

15 Apr 2025