RECLIP: Resource-efficient CLIP by Training with Small Images

RECLIP: Resource-efficient CLIP by Training with Small Images

12 April 2023

Papers citing "RECLIP: Resource-efficient CLIP by Training with Small Images"

16 / 16 papers shown

Title
X-Transfer Attacks: Towards Super Transferable Adversarial Attacks on CLIP Hanxun Huang Sarah Monazam Erfani Yige Li Xingjun Ma James Bailey AAML 34 0 0 08 May 2025
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning Xianhang Li Y. Liu Haoqin Tu Hongru Zhu Cihang Xie VLM 52 0 0 07 May 2025
Enhancing Vision-Language Model Pre-training with Image-text Pair Pruning Based on Word Frequency Mingliang Liang Martha Larson VLM CLIP 11 0 0 09 Oct 2024
CanvOI, an Oncology Intelligence Foundation Model: Scaling FLOPS Differently Jonathan Zalach Inbal Gazy Assaf Avinoam Ron Sinai Eran Shmuel Inbar Gilboa Christine Swisher Naim Matasci Reva Basho David B. Agus 30 0 0 04 Sep 2024
ViTamin: Designing Scalable Vision Models in the Vision-Language Era Jienneg Chen Qihang Yu Xiaohui Shen Alan L. Yuille Liang-Chieh Chen 3DV VLM 28 24 0 02 Apr 2024
M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining Qingpei Guo Furong Xu Hanxiao Zhang Wang Ren Ziping Ma Lin Ju Jian Wang Jingdong Chen Ming Yang VLM MLLM 25 2 0 29 Jan 2024
From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers Jiu Feng Mehmet Hamza Erol Joon Son Chung Arda Senocak 8 1 0 16 Jan 2024
Contrastive Feature Masking Open-Vocabulary Vision Transformer Dahun Kim A. Angelova Weicheng Kuo ObjD VLM 13 27 0 02 Sep 2023
An Inverse Scaling Law for CLIP Training Xianhang Li Zeyu Wang Cihang Xie VLM CLIP 35 54 0 11 May 2023
Less is More: Removing Text-regions Improves CLIP Training Efficiency and Robustness Liangliang Cao Bowen Zhang Chen Chen Yinfei Yang Xianzhi Du Wen‐Cheng Zhang Zhiyun Lu Yantao Zheng CLIP VLM 14 15 0 08 May 2023
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,337 0 11 Nov 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 322 2,249 0 02 Sep 2021
MLP-Mixer: An all-MLP Architecture for Vision Ilya O. Tolstikhin N. Houlsby Alexander Kolesnikov Lucas Beyer Xiaohua Zhai ... Andreas Steiner Daniel Keysers Jakob Uszkoreit Mario Lucic Alexey Dosovitskiy 239 2,554 0 04 May 2021
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Tsung-Yi Lin Weicheng Kuo Yin Cui VLM ObjD 223 897 0 28 Apr 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,735 0 24 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021