Localized Questions in Medical Visual Question AnsweringInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2023

Sergio Tascon-Morales

Pablo Márquez-Neila

Raphael Sznitman

172

03 Jul 2023

Visual Instruction Tuning with Polite FlamingoAAAI Conference on Artificial Intelligence (AAAI), 2023

394

03 Jul 2023

JourneyDB: A Benchmark for Generative Image UnderstandingNeural Information Processing Systems (NeurIPS), 2023

Keqiang Sun

...

Yi Wang

Jifeng Dai

Yu Qiao

Limin Wang

Jiaming Song

341

169

03 Jul 2023

UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language UnderstandingAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

317

03 Jul 2023

S-Omninet: Structured Data Enhanced Universal Multimodal Learning Architecture

Ye Xue

Diego Klabjan

J. Utke

01 Jul 2023

Answer Mining from a Pool of Images: Towards Retrieval-Based Visual Question AnsweringInternational Joint Conference on Artificial Intelligence (IJCAI), 2023

167

29 Jun 2023

Deep Equilibrium Multimodal Fusion

Tao Mei

273

29 Jun 2023

Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language

William Berrios

Gautam Mittal

Tristan Thrush

Douwe Kiela

Amanpreet Singh

MLLM VLM

186

28 Jun 2023

Approximated Prompt Tuning for Vision-Language Pre-trained Models

Qiong Wu

127

27 Jun 2023

FunQA: Towards Surprising Video Comprehension

Ziwei Liu

417

26 Jun 2023

Switch-BERT: Learning to Model Multimodal Interactions by Switching Attention and InputEuropean Conference on Computer Vision (ECCV), 2023

103

25 Jun 2023

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

...

807

1,224

23 Jun 2023

TaCA: Upgrading Your Visual Foundation Model with Task-agnostic Compatible Adapter

Ying Shan

172

22 Jun 2023

VisoGender: A dataset for benchmarking gender bias in image-text pronoun resolutionNeural Information Processing Systems (NeurIPS), 2023

Aleksandar Shtedritski

Hannah Rose Kirk

CoGe

377

21 Jun 2023

Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering

370

16 Jun 2023

Encyclopedic VQA: Visual questions about detailed properties of fine-grained categoriesIEEE International Conference on Computer Vision (ICCV), 2023

281

15 Jun 2023

Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration

373

209

15 Jun 2023

COSA: Concatenated Sample Pretrained Vision-Language Foundation ModelInternational Conference on Learning Representations (ICLR), 2023

203

15 Jun 2023

Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality FusionInternational Conference on Machine Learning (ICML), 2023

Cheston Tan

276

15 Jun 2023

Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional UnderstandingComputer Vision and Pattern Recognition (CVPR), 2023

410

15 Jun 2023

Improving Selective Visual Question Answering by Learning from Your PeersComputer Vision and Pattern Recognition (CVPR), 2023

222

14 Jun 2023

Towards AGI in Computer Vision: Lessons Learned from GPT and Large Language Models

Xiaotao Gu

254

14 Jun 2023

AVIS: Autonomous Visual Information Seeking with Large Language Model AgentNeural Information Processing Systems (NeurIPS), 2023

298

13 Jun 2023

Image Captioners Are Scalable Vision Learners TooNeural Information Processing Systems (NeurIPS), 2023

840

13 Jun 2023

Zero-shot Composed Text-Image RetrievalBritish Machine Vision Conference (BMVC), 2023

Jiangchao Yao

211

12 Jun 2023

Retrieval-Enhanced Contrastive Vision-Text ModelsInternational Conference on Learning Representations (ICLR), 2023

292

12 Jun 2023

Global and Local Semantic Completion Learning for Vision-Language Pre-trainingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Wenzhe Zhao

Hongfa Wang

Yujiu Yang

Wei Liu

VLM

252

12 Jun 2023

Sticker820K: Empowering Interactive Retrieval with Stickers

Sijie Zhao

Ying Shan

112

12 Jun 2023

Weakly Supervised Visual Question Answer Generation

191

11 Jun 2023

Multimodal Explainable Artificial Intelligence: A Comprehensive Review of Methodological Advances and Future Research DirectionsIEEE Access (IEEE Access), 2023

N. Rodis

Christos Sardianos

Panagiotis I. Radoglou-Grammatikis

Panagiotis G. Sarigiannidis

Iraklis Varlamis

Georgios Th. Papadopoulos

335

09 Jun 2023

MIMIC-IT: Multi-Modal In-Context Instruction Tuning

Ziwei Liu

279

291

08 Jun 2023

Modular Visual Question Answering via Code GenerationAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

228

08 Jun 2023

M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language ModelsNeural Information Processing Systems (NeurIPS), 2023

Wenxuan Zhang

Sharifah Mahani Aljunied

312

128

08 Jun 2023