SnapNTell: Enhancing Entity-Centric Visual Question Answering with Retrieval Augmented Multimodal LLM

7 March 2024

Andrea Madotto

Babak Damavandi

Papers citing "SnapNTell: Enhancing Entity-Centric Visual Question Answering with Retrieval Augmented Multimodal LLM"

3 / 3 papers shown

Title
Evaluating Durability: Benchmark Insights into Multimodal Watermarking Jielin Qiu William Jongwon Han Xuandong Zhao Shangbang Long Christos Faloutsos Lei Li 43 1 0 06 Jun 2024
Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities Hexiang Hu Yi Luan Yang Chen Urvashi Khandelwal Mandar Joshi Kenton Lee Kristina Toutanova Ming-Wei Chang VLM 40 54 0 22 Feb 2023
WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning Krishna Srinivasan K. Raman Jiecao Chen Michael Bendersky Marc Najork VLM 181 307 0 02 Mar 2021