X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment

18 March 2024

Papers citing "X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment"

2 / 2 papers shown

Title
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines Genta Indra Winata Frederikus Hudi Patrick Amadeus Irawan David Anugraha Rifki Afina Putri ... Alham Fikri Aji Taro Watanabe Derry Wijaya Alice H. Oh Chong-Wah Ngo CoGe 92 9 0 16 Oct 2024
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 380 4,010 0 28 Jan 2022