NLLB-CLIP -- train performant multilingual image retrieval model on a budget

4 September 2023

Papers citing "NLLB-CLIP -- train performant multilingual image retrieval model on a budget"

14 / 14 papers shown

Title
X-Transfer Attacks: Towards Super Transferable Adversarial Attacks on CLIP Hanxun Huang Sarah Monazam Erfani Yige Li Xingjun Ma James Bailey AAML 34 0 0 08 May 2025
SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models Justus Westerhoff Erblina Purellku Jakob Hackstein Jonas Loos Leo Pinetzki Lorenz Hufe AAML 28 0 0 07 Apr 2025
jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images Andreas Koukounas Georgios Mastrapas Bo Wang Mohammad Kalim Akram Sedigheh Eslami Michael Gunther Isabelle Mohr Saba Sturua Scott Martens Nan Wang VLM 97 6 0 11 Dec 2024
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples Baiqi Li Zhiqiu Lin Wenxuan Peng Jean de Dieu Nyandwi Daniel Jiang Zixian Ma Simran Khanuja Ranjay Krishna Graham Neubig Deva Ramanan AAML CoGe VLM 58 20 0 18 Oct 2024
Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models Yufang Liu Tao Ji Changzhi Sun Yuanbin Wu Aimin Zhou VLM MLLM 33 1 0 04 Oct 2024
Navigating Text-to-Image Generative Bias across Indic Languages S. Mittal Arnav Sudan Mayank Vatsa Richa Singh Tamar Glaser Tal Hassner EGVM 31 1 0 01 Aug 2024
Towards Zero-Shot Multimodal Machine Translation Matthieu Futeral Cordelia Schmid Benoît Sagot Rachel Bawden 30 3 0 18 Jul 2024
Uplifting Lower-Income Data: Strategies for Socioeconomic Perspective Shifts in Vision-Language Models Joan Nwatu Oana Ignat Rada Mihalcea 16 0 0 02 Jul 2024
mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus Matthieu Futeral A. Zebaze Pedro Ortiz Suarez Julien Abadji Rémi Lacroix Cordelia Schmid Rachel Bawden Benoît Sagot 39 3 0 13 Jun 2024
Multilingual Diversity Improves Vision-Language Representations Thao Nguyen Matthew Wallingford Sebastin Santy Wei-Chiu Ma Sewoong Oh Ludwig Schmidt Pang Wei Koh Ranjay Krishna VLM 21 5 0 27 May 2024
Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models Simon Schrodi David T. Hoffmann Max Argus Volker Fischer Thomas Brox VLM 47 0 0 11 Apr 2024
Sigmoid Loss for Language Image Pre-Training Xiaohua Zhai Basil Mustafa Alexander Kolesnikov Lucas Beyer CLIP VLM 14 917 0 27 Mar 2023
CLIP model is an Efficient Continual Learner Vishal G. Thengane Salman Khan Munawar Hayat F. Khan BDL VLM CLL 97 43 0 06 Oct 2022
Crossmodal-3600: A Massively Multilingual Multimodal Evaluation Dataset Ashish V. Thapliyal Jordi Pont-Tuset Xi Chen Radu Soricut VGen 67 71 0 25 May 2022