Bridging the Visual Gap: Fine-Tuning Multimodal Models with Knowledge-Adapted Captions

13 November 2024

Papers citing "Bridging the Visual Gap: Fine-Tuning Multimodal Models with Knowledge-Adapted Captions"

2 / 2 papers shown

Title
3DArticCyclists: Generating Synthetic Articulated 8D Pose-Controllable Cyclist Data for Computer Vision Applications Eduardo R. Corral-Soto Yang Liu Tongtong Cao Y. Ren Liu Bingbing 42 0 0 14 Oct 2024
Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models Nitzan Bitton-Guetta Aviv Slobodkin Aviya Maimon Eliya Habba Royi Rassin Yonatan Bitton Idan Szpektor Amir Globerson Yuval Elovici ReLM VLM LRM 26 5 0 28 Jul 2024