Can Pre-trained Vision and Language Models Answer Visual
Information-Seeking Questions?

Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?

23 February 2023

Soravit Changpinyo

Papers citing "Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?"

10 / 60 papers shown

Title
Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering Weizhe Lin Jinghong Chen Jingbiao Mei Alexandru Coca Bill Byrne 19 27 0 29 Sep 2023
Encyclopedic VQA: Visual questions about detailed properties of fine-grained categories Thomas Mensink J. Uijlings Lluis Castrejon A. Goel Felipe Cadar Howard Zhou Fei Sha A. Araújo V. Ferrari 31 36 0 15 Jun 2023
AVIS: Autonomous Visual Information Seeking with Large Language Model Agent Ziniu Hu Ahmet Iscen Chen Sun Kai-Wei Chang Yizhou Sun David A. Ross Cordelia Schmid Alireza Fathi 23 11 0 13 Jun 2023
PaLI-X: On Scaling up a Multilingual Vision and Language Model Xi Chen Josip Djolonga Piotr Padlewski Basil Mustafa Soravit Changpinyo ... Mojtaba Seyedhosseini A. Angelova Xiaohua Zhai N. Houlsby Radu Soricut VLM 44 186 0 29 May 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 203 883 0 27 Apr 2023
Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities Hexiang Hu Yi Luan Yang Chen Urvashi Khandelwal Mandar Joshi Kenton Lee Kristina Toutanova Ming-Wei Chang VLM 43 54 0 22 Feb 2023
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang Zhe Gan Jianfeng Wang Xiaowei Hu Yumao Lu Zicheng Liu Lijuan Wang 169 401 0 10 Sep 2021
ImageNet-21K Pretraining for the Masses T. Ridnik Emanuel Ben-Baruch Asaf Noy Lihi Zelnik-Manor SSeg VLM CLIP 162 676 0 22 Apr 2021
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 250 922 0 24 Sep 2019
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 279 39,083 0 01 Sep 2014