v1v2 (latest)

Is BERT Blind? Exploring the Effect of Vision-and-Language Pretraining on Visual Language Understanding

Computer Vision and Pattern Recognition (CVPR), 2023

21 March 2023

ArXiv (abs)PDF HTML Github

Papers citing "Is BERT Blind? Exploring the Effect of Vision-and-Language Pretraining on Visual Language Understanding"

16 / 16 papers shown

AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?

212

22 Sep 2025

Imagine to Hear: Auditory Knowledge Generation can be an Effective Assistant for Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

355

21 Mar 2025

AudioBERT: Audio Knowledge Augmented Language ModelIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

310

17 Jan 2025

VLM's Eye Examination: Instruct and Inspect Visual Competency of Vision Language Models

284

23 Sep 2024

Improving the Efficiency of Visually Augmented Language ModelsInternational Conference on Computational Linguistics (COLING), 2024

287

17 Sep 2024

What does Kiki look like? Cross-modal associations between speech sounds and visual shapes in vision-and-language models

243

25 Jul 2024

Emergent Visual-Semantic Hierarchies in Image-Text Representations

Morris Alper

Hadar Averbuch-Elor

VLM

498

11 Jul 2024

SUGARCREPE++ Dataset: Vision-Language Model Sensitivity to Semantic and Lexical Alterations

Sri Harsha Dumpala

Aman Jaiswal

Chandramouli Shama Sastry

461

17 Jun 2024

A Nurse is Blue and Elephant is Rugby: Cross Domain Alignment in Large Language Models Reveal Human-like Patterns

Gabriel Stanovsky

225

23 May 2024

VISLA Benchmark: Evaluating Embedding Sensitivity to Semantic and Lexical Alterations

Sri Harsha Dumpala

Aman Jaiswal

Chandramouli Shama Sastry

315

25 Apr 2024

Template-Based Probes Are Imperfect Lenses for Counterfactual Bias Evaluation in LLMs

Farnaz Kohankhaki

D. B. Emerson

David B. Emerson

Laleh Seyyed-Kalantari

Faiza Khan Khattak

518

04 Apr 2024

VCD: A Dataset for Visual Commonsense Discovery in Images

352

27 Feb 2024

Mitigating Open-Vocabulary Caption Hallucinations

518

06 Dec 2023

Kiki or Bouba? Sound Symbolism in Vision-and-Language ModelsNeural Information Processing Systems (NeurIPS), 2023

Morris Alper

Hadar Averbuch-Elor

352

25 Oct 2023

A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models

Noriyuki Kojima

Hadar Averbuch-Elor

Yoav Artzi

362

06 Sep 2023

Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?

Liang Ding

Li Shen

332

24 Aug 2023