Constructing Multilingual Visual-Text Datasets Revealing Visual
Multilingual Ability of Vision Language Models

Constructing Multilingual Visual-Text Datasets Revealing Visual Multilingual Ability of Vision Language Models

29 March 2024

Tatsuya Hiraoka

Hidetaka Kamigaito

Taro Watanabe

Papers citing "Constructing Multilingual Visual-Text Datasets Revealing Visual Multilingual Ability of Vision Language Models"

4 / 4 papers shown

Title
Semantic and Expressive Variation in Image Captions Across Languages Andre Ye Sebastin Santy Jena D. Hwang Amy X. Zhang Ranjay Krishna VLM 37 3 0 22 Oct 2023
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes Lokesh Nagalapatti Chun-Liang Li Chih-Kuan Yeh Hootan Nakhost Yasuhisa Fujii Alexander Ratner Ranjay Krishna Chen-Yu Lee Tomas Pfister ALM 201 283 0 03 May 2023
Crossmodal-3600: A Massively Multilingual Multimodal Evaluation Dataset Ashish V. Thapliyal Jordi Pont-Tuset Xi Chen Radu Soricut VGen 67 71 0 25 May 2022
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 845 0 17 Feb 2021