EchoSight: Advancing Visual-Language Models with Wiki Knowledge

17 July 2024

Papers citing "EchoSight: Advancing Visual-Language Models with Wiki Knowledge"

5 / 5 papers shown

Title
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation Mohammad Mahdi Abootorabi Amirhosein Zobeiri Mahdi Dehghani Mohammadali Mohammadkhani Bardia Mohammadi Omid Ghahroodi M. Baghshah Ehsaneddin Asgari RALM 95 3 0 12 Feb 2025
CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model Dongyoung Go Taesun Whang Chanhee Lee Hwayeon Kim Sunghoon Park Seunghwan Ji Dongchan Kim Young-Bum Kim Young-Bum Kim LRM 86 1 0 19 Nov 2024
PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers Weizhe Lin Jingbiao Mei Jinghong Chen Bill Byrne VLM AI4Ed 68 4 0 13 Feb 2024
EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters Quan-Sen Sun Jinsheng Wang Qiying Yu Yufeng Cui Fan Zhang Xiaosong Zhang Xinlong Wang VLM CLIP MLLM 81 38 0 06 Feb 2024
Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities Hexiang Hu Yi Luan Yang Chen Urvashi Khandelwal Mandar Joshi Kenton Lee Kristina Toutanova Ming-Wei Chang VLM 43 54 0 22 Feb 2023