Title
Contrastive Localized Language-Image Pre-Training Hong-You Chen Zhengfeng Lai H. Zhang X. Wang Marcin Eichner Keen You Meng Cao Bowen Zhang Y. Yang Zhe Gan CLIP VLM 65 7 0 20 Feb 2025
Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment Konstantin Schall Kai Uwe Barthel Nico Hezel Klaus Jung VLM 28 3 0 03 Sep 2024
Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities Hexiang Hu Yi Luan Yang Chen Urvashi Khandelwal Mandar Joshi Kenton Lee Kristina Toutanova Ming-Wei Chang VLM 43 55 0 22 Feb 2023
UniCLIP: Unified Framework for Contrastive Language-Image Pre-training Janghyeon Lee Jongsuk Kim Hyounguk Shon Bumsoo Kim Seung Wook Kim Honglak Lee Junmo Kim CLIP VLM 50 53 0 27 Sep 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,412 0 11 Nov 2021
DOLG: Single-Stage Image Retrieval with Deep Orthogonal Fusion of Local and Global Features Min Yang Dongliang He M. Fan Baorong Shi Xuetong Xue Fu Li Errui Ding Jizhou Huang 35 92 0 06 Aug 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 292 5,761 0 29 Apr 2021
ImageNet-21K Pretraining for the Masses T. Ridnik Emanuel Ben-Baruch Asaf Noy Lihi Zelnik-Manor SSeg VLM CLIP 166 684 0 22 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 282 39,170 0 01 Sep 2014