ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

Neural Information Processing Systems (NeurIPS), 2019

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,235 papers shown

Pure Vision Language Action (VLA) Models: A Comprehensive Survey

379

23 Sep 2025

M3ET: Efficient Vision-Language Learning for Robotics based on Multimodal Mamba-Enhanced Transformer

167

22 Sep 2025

VC-Inspector: Advancing Reference-free Evaluation of Video Captions with Factual Analy

Shubhashis Roy Dipta

Tz-Ying Wu

Subarna Tripathi

212

20 Sep 2025

TriSPrompt: A Hierarchical Soft Prompt Model for Multimodal Rumor Detection with Incomplete Modalities

115

18 Sep 2025

Hierarchical Self-Attention: Generalizing Neural Attention Mechanics to Multi-Scale Problems

217

18 Sep 2025

Copycat vs. Original: Multi-modal Pretraining and Variable Importance in Box-office Prediction

Qin Chao

Eunsoo Kim

Boyang Albert Li

172

18 Sep 2025

MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook

...

160

17 Sep 2025

Cross-modal Full-mode Fine-grained Alignment for Text-to-Image Person Retrieval

178

17 Sep 2025

TFANet: Three-Stage Image-Text Feature Alignment Network for Robust Referring Image Segmentation

224

16 Sep 2025

Biomedical Hypothesis Explainability with Graph-Based Context RetrievalbioRxiv (bioRxiv), 2025

Ilya Tyagin

Saeideh Valipour

Aliaksandra Sikirzhytskaya

M. Shtutman

Ilya Safro

144

15 Sep 2025

Knowledge-Guided Adaptive Mixture of Experts for Precipitation Prediction

117

14 Sep 2025

Towards Understanding Visual Grounding in Visual Language Models

Georgios Pantazopoulos

Eda B. Özyiğit

ObjD

492

12 Sep 2025

DualTrack: Sensorless 3D Ultrasound needs Local and Global Context

101

11 Sep 2025

SimCroP: Radiograph Representation Learning with Similarity-driven Cross-granularity Pre-trainingInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025

...

198

10 Sep 2025

Parse Graph-Based Visual-Language Interaction for Human Pose Estimation

Shibang Liu

Xuemei Xie

G. Shi

146

09 Sep 2025

Hybrid-Tower: Fine-grained Pseudo-query Interaction and Generation for Text-to-Video Retrieval

188

05 Sep 2025

Artificial intelligence for representing and characterizing quantum systems

...

209

05 Sep 2025

Attn-Adapter: Attention Is All You Need for Online Few-shot Learner of Vision-Language Model

323

04 Sep 2025

Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models

Hiroshi Sasaki

VLM

202

02 Sep 2025

Street-Level Geolocalization Using Multimodal Large Language Models and Retrieval-Augmented Generation

Yunus Serhat Bicakci

Joseph Shingleton

Anahid Basiri

135

01 Sep 2025

SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models

187

25 Aug 2025

Limitations of Normalization in Attention Mechanism

140

25 Aug 2025

Explain Before You Answer: A Survey on Compositional Visual Reasoning

...

406

24 Aug 2025

Cross-Attention Multimodal Fusion for Breast Cancer Diagnosis: Integrating Mammography and Clinical Data with Explainability

Muhaisin Tiyumba Nantogmah

Abdul-Barik Alhassan

Salamudeen Alhassan

175

21 Aug 2025

GazeProphet: Software-Only Gaze Prediction for VR Foveated Rendering

Farhaan Ebadulla

Chiraag Mudlapur

Gaurav BV

182

19 Aug 2025

VELVET-Med: Vision and Efficient Language Pre-training for Volumetric Imaging Tasks in Medicine

140

16 Aug 2025

Recent Advances in Transformer and Large Language Models for UAV Applications

Hamza Kheddar

Yassine Habchi

Mohamed Chahine Ghanem

Mustapha Hemis

Dusit Niyato

197

15 Aug 2025

A Curriculum Learning Approach to Reinforcement Learning: Leveraging RAG for Multimodal Question Answering

202

14 Aug 2025

AME: Aligned Manifold Entropy for Robust Vision-Language Distillation

Guiming Cao

Yuming Ou

AAML VLM

224

12 Aug 2025

FLUID: Flow-Latent Unified Integration via Token Distillation for Expert Specialization in Multimodal Learning

165

10 Aug 2025

Remote Sensing Image Intelligent Interpretation with the Language-Centered Perspective: Principles, Methods and Challenges

190

09 Aug 2025

Adversarial Video Promotion Against Text-to-Video Retrieval

195

09 Aug 2025

Natural Language-Driven Viewpoint Navigation for Volume Exploration via Semantic Block Representation

Xuan Zhao

Jun Tao

125

09 Aug 2025

MultiCheck: Strengthening Web Trust with Unified Multimodal Fact Verification

Aditya Kishore

Gaurav Kumar

Jasabanta Patro

215

07 Aug 2025

Surformer v1: Transformer-Based Surface Classification Using Tactile and Vision Features

Manish Kansana

Elias Hossain

Shahram Rahimi

Noorbakhsh Amiri Golilarz

ViT

161

07 Aug 2025

Accelerating Conditional Prompt Learning via Masked Image Modeling for Vision-Language Models

307

07 Aug 2025

Does Multimodality Improve Recommender Systems as Expected? A Critical Analysis and Future Directions

152

07 Aug 2025

Latent Expression Generation for Referring Image Segmentation and Grounding

293

07 Aug 2025

RegionMed-CLIP: A Region-Aware Multimodal Contrastive Learning Pre-trained Model for Medical Image Understanding

Tianchen Fang

Guiru Liu

MedIm VLM

169

07 Aug 2025

Chain of Questions: Guiding Multimodal Curiosity in Language Models

Nima Iji

Kia Dashtipour

LRM

195

06 Aug 2025

Parameter-Efficient Single Collaborative Branch for RecommendationACM Conference on Recommender Systems (RecSys), 2025

201

05 Aug 2025

VLM4D: Towards Spatiotemporal Awareness in Vision Language Models

269

04 Aug 2025

A Unified Perception-Language-Action Framework for Adaptive Autonomous Driving

187

31 Jul 2025

From Image Captioning to Visual Storytelling

278

31 Jul 2025

DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception

Pei Deng

Wenqian Zhou

Hanlin Wu

157

30 Jul 2025

Modality-Aware Feature Matching: A Comprehensive Review of Single- and Cross-Modality Techniques

290

30 Jul 2025

Goal-Based Vision-Language Driving

Santosh Patapati

Trisanth Srinivasan

225

30 Jul 2025

Color as the Impetus: Transforming Few-Shot Learner

318

29 Jul 2025

A Survey on Generative Model Unlearning: Fundamentals, Taxonomy, Evaluation, and Future Direction

355

26 Jul 2025

Closing the Modality Gap for Mixed Modality Search

178

25 Jul 2025