Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering

29 September 2023

Papers citing "Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering"

6 / 6 papers shown

Title
Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent Yangning Li Yinghui Li Xinyu Wang Yong-feng Jiang Zhen Zhang ... Hui Wang Hai-Tao Zheng Pengjun Xie Philip S. Yu Fei Huang 60 15 0 05 Nov 2024
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
Retrieval Augmented Visual Question Answering with Outside Knowledge Weizhe Lin Bill Byrne RALM 74 68 0 07 Oct 2022
PLAID: An Efficient Engine for Late Interaction Retrieval Keshav Santhanam Omar Khattab Christopher Potts Matei A. Zaharia VLM 58 72 0 19 May 2022
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang Zhe Gan Jianfeng Wang Xiaowei Hu Yumao Lu Zicheng Liu Lijuan Wang 169 401 0 10 Sep 2021
WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning Krishna Srinivasan K. Raman Jiecao Chen Michael Bendersky Marc Najork VLM 187 307 0 02 Mar 2021