Q-GroundCAM: Quantifying Grounding in Vision Language Models via GradCAM

29 April 2024

Papers citing "Q-GroundCAM: Quantifying Grounding in Vision Language Models via GradCAM"

2 / 2 papers shown

Title
Visual Language Maps for Robot Navigation Chen Huang Oier Mees Andy Zeng Wolfram Burgard LM&Ro 145 337 0 11 Oct 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 388 4,010 0 28 Jan 2022