VisualBERT: A Simple and Performant Baseline for Vision and Language

9 August 2019

Papers citing "VisualBERT: A Simple and Performant Baseline for Vision and Language"

50 / 1,260 papers shown

Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering

Pinghui Wang

Lingyun Song

475

18 Apr 2024

Towards a Foundation Model for Partial Differential Equations: Multi-Operator Learning and Extrapolation

Jingmin Sun

Yuxuan Liu

Zecheng Zhang

Hayden Schaeffer

AI4CE

402

18 Apr 2024

Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent

Wei Chen

Zhiyuan Li

LLMAG

128

17 Apr 2024

From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search

Jintao Sun

Zhedong Zheng

Gangyi Ding

434

16 Apr 2024

Evolving Interpretable Visual Classifiers with Large Language Models

Mia Chiquier

Utkarsh Mall

Carl Vondrick

VLM

254

15 Apr 2024

Conditional Prototype Rectification Prompt Learning

231

15 Apr 2024

DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection

Lewei Yao

Renjie Pi

Jianhua Han

Xiaodan Liang

Hang Xu

Wei Zhang

Zhenguo Li

Dan Xu

VLM ObjD

295

14 Apr 2024

AlignZeg: Mitigating Objective Misalignment for Zero-shot Semantic Segmentation

292

08 Apr 2024

Contextual Chart Generation for Cyber Deception

250

07 Apr 2024

Vision Transformers in Domain Adaptation and Generalization: A Study of Robustness

313

05 Apr 2024

DeViDe: Faceted medical knowledge for improved medical vision-language pre-training

258

04 Apr 2024

MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

234

116

04 Apr 2024

Cross-Modality Gait Recognition: Bridging LiDAR and Camera Modalities for Human Identification

232

04 Apr 2024

BCAmirs at SemEval-2024 Task 4: Beyond Words: A Multimodal and Multilingual Exploration of Persuasion in MemesInternational Workshop on Semantic Evaluation (SemEval), 2024

Amirhossein Abaskohi

AmirHossein Dabiri Aghdam

Lele Wang

Giuseppe Carenini

226

03 Apr 2024

Bi-LORA: A Vision-Language Approach for Synthetic Image Detection

Mamadou Keita

W. Hamidouche

Hessen Bougueffa Eutamene

Abdenour Hadid

Abdelmalik Taleb-Ahmed

306

02 Apr 2024

CATP: Cross-Attention Token Pruning for Accuracy Preserved Multimodal Model Inference

02 Apr 2024

VideoDistill: Language-aware Vision Distillation for Video Question Answering

Yu Qiao

239

01 Apr 2024

LLaMA-Excitor: General Instruction Tuning via Indirect Feature Interaction

Yu Qiao

236

01 Apr 2024

Unknown Prompt, the only Lacuna: Unveiling CLIP's Potential for Open Domain Generalization

Mainak Singha

Ankit Jha

Biplab Banerjee

206

31 Mar 2024

Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations

221

29 Mar 2024

FSMR: A Feature Swapping Multi-modal Reasoning Approach with Joint Textual and Visual Clues

Shuang Li

Jiahua Wang

Lijie Wen

LRM

151

29 Mar 2024

Semantic Map-based Generation of Navigation Instructions

211

28 Mar 2024

Scaling Vision-and-Language Navigation With Offline RL

Biplab Banerjee

183

27 Mar 2024

Predicate Debiasing in Vision-Language Models Integration for Scene Graph Generation EnhancementConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Yuxuan Wang

Xiaoyuan Liu

VLM

275

24 Mar 2024

Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models

Qiong Wu

184

22 Mar 2024

Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery

Zhen Chen

Jinlin Wu

Mobarakol Islam

Hongbin Liu

Hongliang Ren

350

22 Mar 2024

Grounding Spatial Relations in Text-Only Language Models

Gorka Azkune

Ander Salaberria

Eneko Agirre

192

20 Mar 2024

As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks?

Anjun Hu

Jindong Gu

Francesco Pinto

Konstantinos Kamnitsas

Juil Sock

AAML SILM

251

19 Mar 2024

Modality-Agnostic fMRI Decoding of Vision and Language

189

18 Mar 2024

Prioritized Semantic Learning for Zero-shot Instance NavigationEuropean Conference on Computer Vision (ECCV), 2024

250

18 Mar 2024

Deciphering Hate: Identifying Hateful Memes and Their Targets

202

16 Mar 2024

GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category DiscoveryComputer Vision and Pattern Recognition (CVPR), 2024

Ming-Ming Cheng

471

15 Mar 2024

PosSAM: Panoptic Open-vocabulary Segment Anything

Shubhankar Borse

Fatih Porikli

193

14 Mar 2024

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

...

516

244

14 Mar 2024

Generative Models and Connected and Automated Vehicles: A Survey in Exploring the Intersection of Transportation and AI

Bo Shu

Zhouyao Zhu

Dong Shu

371

14 Mar 2024

Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring

294

14 Mar 2024

Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship ClassificationIEEE Transactions on Geoscience and Remote Sensing (TGRS), 2024

Xinwang Liu

202

13 Mar 2024

Annotations on a Budget: Leveraging Geo-Data Similarity to Balance Model Performance and Annotation CostInternational Conference on Language Resources and Evaluation (LREC), 2024

201

12 Mar 2024

Noise-powered Multi-modal Knowledge Graph Representation FrameworkInternational Conference on Computational Linguistics (COLING), 2024

194

11 Mar 2024

SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection

294

05 Mar 2024

Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review

Iryna Hartsock

Ghulam Rasool

373

166

04 Mar 2024

HALC: Object Hallucination Reduction via Adaptive Focal-Contrast Decoding

Zhaorun Chen

264

132

01 Mar 2024

Acquiring Linguistic Knowledge from Multimodal Input

Theodor Amariucai

Alexander Scott Warstadt

CLL

284

27 Feb 2024

Vision Transformers with Natural Language Semantics

153

27 Feb 2024

Demonstrating and Reducing Shortcuts in Vision-Language Representation Learning

Maurits J. R. Bleeker

Mariya Hendriksen

Andrew Yates

Maarten de Rijke

VLM

322

27 Feb 2024

CARZero: Cross-Attention Alignment for Radiology Zero-Shot Classification

299

27 Feb 2024

ACTrack: Adding Spatio-Temporal Condition for Visual Object Tracking

Yushan Han

Kaer Huang

163

27 Feb 2024

How Can LLM Guide RL? A Value-Based Approach

Jianbo Yuan

Hongxia Yang

246

25 Feb 2024

NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation

Qi Wu

657

153

24 Feb 2024

CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora

331

23 Feb 2024