VisualBERT: A Simple and Performant Baseline for Vision and Language

9 August 2019

Papers citing "VisualBERT: A Simple and Performant Baseline for Vision and Language"

50 / 1,260 papers shown

A Single Transformer for Scalable Vision-Language Modeling

297

08 Jul 2024

AI as a Tool for Fair Journalism: Case Studies from Malta

Dylan Seychell

Gabriel Hili

Jonathan Attard

Konstantinos Makantatis

158

08 Jul 2024

Elevating All Zero-Shot Sketch-Based Image Retrieval Through Multimodal Prompt Learning

417

05 Jul 2024

HEMM: Holistic Evaluation of Multimodal Foundation Models

Paul Pu Liang

Louis-Philippe Morency

353

03 Jul 2024

ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback

316

25 Jun 2024

What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Gaussian-Noise-free Text-Image Corruption and Evaluation

Carsten Eickhoff

451

24 Jun 2024

Towards Natural Language-Driven Assembly Using Foundation Models

206

23 Jun 2024

RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding

Haifeng Li

269

18 Jun 2024

WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences

Yujie Lu

Dongfu Jiang

Wenhu Chen

William Yang Wang

Yejin Choi

Bill Yuchen Lin

VLM

442

16 Jun 2024

Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech DetectionInterspeech (Interspeech), 2024

Jack Berkowitz

Ahmed Hussen Abdelaziz

Saurabh N. Adya

Ahmed H. Tewfik

VLM

180

13 Jun 2024

MirrorCheck: Efficient Adversarial Defense for Vision-Language Models

Martin Takáč

Pascal Fua

Karthik Nandakumar

Ivan Laptev

VLM AAML

239

13 Jun 2024

ConceptHash: Interpretable Fine-Grained Hashing via Concept Discovery

Kam Woh Ng

Xiatian Zhu

Yi-Zhe Song

Tao Xiang

245

12 Jun 2024

Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning

Chenyu Yang

Xizhou Zhu

Jinguo Zhu

Weijie Su

Junjie Wang

...

Lewei Lu

Bin Li

Jie Zhou

Yu Qiao

Jifeng Dai

VLM CLIP

204

11 Jun 2024

Learning Domain-Invariant Features for Out-of-Context News Detection

Gareth Tyson

281

11 Jun 2024

Aligning Human Knowledge with Visual Concepts Towards Explainable Medical Image ClassificationInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2024

237

08 Jun 2024

One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models

Hao Fang

Bin Chen

Hao Wu

441

08 Jun 2024

Interpretable Multimodal Out-of-context Detection with Soft Logic RegularizationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

237

07 Jun 2024

ArMeme: Propagandistic Content in Arabic Memes

192

06 Jun 2024

Multimodal Reasoning with Multimodal Knowledge Graph

Junlin Lee

Yequan Wang

Jing Li

Min Zhang

275

04 Jun 2024

Progressive Confident Masking Attention Network for Audio-Visual Segmentation

Yuxuan Wang

Feng Dong

Jinchao Zhu

Shuyue Zhu

VOS

392

04 Jun 2024

Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models

230

31 May 2024

Can't make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models

297

30 May 2024

Enhancing Large Vision Language Models with Self-Training on Image Comprehension

239

30 May 2024

MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification

469

29 May 2024

FinEmbedDiff: A Cost-Effective Approach of Classifying Financial Documents with Vector Sampling using Multi-modal Embedding Models

Anjanava Biswas

Wrick Talukdar

100

28 May 2024

Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View

Jin Wang

Ping Luo

262

27 May 2024

Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning

237

26 May 2024

Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement

...

Furong Huang

494

24 May 2024

A Survey on Vision-Language-Action Models for Embodied AI

911

170

23 May 2024

PitVQA: Image-grounded Text Embedding LLM for Visual Question Answering in Pituitary Surgery

Runlong He

Mengya Xu

Adrito Das

Danyal Z. Khan

Sophia Bano

Hani J. Marcus

Danail Stoyanov

Matthew J. Clarkson

Mobarakol Islam

156

22 May 2024

A Novel Fusion Architecture for PD Detection Using Semi-Supervised Speech Embeddings

Tariq Adnan

Abdelrahman Abdelkader

119

21 May 2024

Resolving Word Vagueness with Scenario-guided Adapter for Natural Language Inference

227

21 May 2024

Enhancing Fine-Grained Image Classifications via Cascaded Vision Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Canshi Wei

VLM

247

18 May 2024

MemeMQA: Multimodal Question Answering for Memes via Rationale-Based InferencingAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

267

18 May 2024

Review of Deep Representation Learning Techniques for Brain-Computer Interfaces and RecommendationsJournal of Neural Engineering (J. Neural Eng.), 2024

Pierre Guetschel

Sara Ahmadi

Michael Tangermann

322

17 May 2024

STAR: A Benchmark for Situated Reasoning in Real-World Videos

Chuang Gan

493

258

15 May 2024

Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis

A. Englebert

Anne-Sophie Collin

O. Cornu

Christophe De Vleeschouwer

232

14 May 2024

Unified Video-Language Pre-training with Synchronized Audio

Shentong Mo

Haofan Wang

Huaxia Li

Xu Tang

286

12 May 2024

Realizing Visual Question Answering for Education: GPT-4V as a Multimodal AI

Gyeong-Geon Lee

Xiaoming Zhai

195

12 May 2024

Similarity Guided Multimodal Fusion Transformer for Semantic Location
Prediction in Social Media

199

09 May 2024

POV Learning: Individual Alignment of Multimodal Models using Human Perception

124

07 May 2024

Enhanced Textual Feature Extraction for Visual Question Answering: A Simple Convolutional Approach

Zhilin Zhang

Fangyu Wu

201

01 May 2024

ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images

Huy Quang Pham

Thang Kien-Bao Nguyen

233

29 Apr 2024

Medical Vision-Language Pre-Training for Brain Abnormalities

245

27 Apr 2024

NTIRE 2024 Quality Assessment of AI-Generated Content Challenge

Xiaohong Liu

Xiongkuo Min

Guangtao Zhai

...

380

25 Apr 2024

What Makes Multimodal In-Context Learning Work?

Folco Bertini Baldassini

438

24 Apr 2024

Leveraging Speech for Gesture Detection in Multimodal Communication

192

23 Apr 2024

PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering

226

19 Apr 2024

Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models

Yinpeng Dong

Hang Su

348

18 Apr 2024

Variational Multi-Modal Hypergraph Attention Network for Multi-Modal Relation Extraction

131

18 Apr 2024