Multilingual Multimodal Learning with Machine Translated Text

Multilingual Multimodal Learning with Machine Translated Text

24 October 2022

Emanuele Bugliarello

Desmond Elliott

Papers citing "Multilingual Multimodal Learning with Machine Translated Text"

12 / 12 papers shown

Title
Breaking Language Barriers in Visual Language Models via Multilingual Textual Regularization Iñigo Pikabea Iñaki Lacunza Oriol Pareras Carlos Escolano Aitor Gonzalez-Agirre Javier Hernando Marta Villegas VLM 44 0 0 28 Mar 2025
Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models Julian Spravil Sebastian Houben Sven Behnke VLM 65 0 0 12 Mar 2025
Why do LLaVA Vision-Language Models Reply to Images in English? Musashi Hinck Carolin Holtermann M. L. Olson Florian Schneider Sungduk Yu Anahita Bhiwandiwalla Anne Lauscher Shaoyen Tseng Vasudev Lal VLM 30 4 0 02 Jul 2024
Improving the Consistency in Cross-Lingual Cross-Modal Retrieval with 1-to-K Contrastive Learning Zhijie Nie Richong Zhang Zhangchi Feng Hailang Huang Xudong Liu 19 1 0 26 Jun 2024
No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models Angeline Pouget Lucas Beyer Emanuele Bugliarello Xiao Wang Andreas Steiner Xiao-Qi Zhai Ibrahim M. Alabdulmohsin VLM 23 7 0 22 May 2024
Semantic and Expressive Variation in Image Captions Across Languages Andre Ye Sebastin Santy Jena D. Hwang Amy X. Zhang Ranjay Krishna VLM 33 3 0 22 Oct 2023
ICU: Conquering Language Barriers in Vision-and-Language Modeling by Dividing the Tasks into Image Captioning and Language Understanding Guojun Wu VLM MLLM 11 0 0 19 Oct 2023
Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages Jinyi Hu Yuan Yao Chong Wang Shanonan Wang Yinxu Pan ... Yankai Lin Jiao Xue Dahai Li Zhiyuan Liu Maosong Sun MLLM VLM 16 48 0 23 Aug 2023
LMCap: Few-shot Multilingual Image Captioning by Retrieval Augmented Language Model Prompting R. Ramos Bruno Martins Desmond Elliott VLM 11 16 0 31 May 2023
Meta-learning For Vision-and-language Cross-lingual Transfer Hanxu Hu Frank Keller VLM 10 1 0 24 May 2023
Visually Grounded Reasoning across Languages and Cultures Fangyu Liu Emanuele Bugliarello E. Ponti Siva Reddy Nigel Collier Desmond Elliott VLM LRM 90 167 0 28 Sep 2021
WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning Krishna Srinivasan K. Raman Jiecao Chen Michael Bendersky Marc Najork VLM 181 307 0 02 Mar 2021