CLIPLoss and Norm-Based Data Selection Methods for Multimodal
Contrastive Learning

CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning

29 May 2024

Kevin G. Jamieson

Papers citing "CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning"

11 / 11 papers shown

Title
ReSpec: Relevance and Specificity Grounded Online Filtering for Learning on Video-Text Data Streams C. Kim Jihwan Moon Sangwoo Moon Heeseung Yun Sihaeng Lee Aniruddha Kembhavi Soonyoung Lee Gunhee Kim Sangho Lee Christopher Clark 18 0 0 21 Apr 2025
Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources Weizhi Wang Yu Tian L. Yang Heng Wang Xifeng Yan MLLM VLM 74 0 0 01 Apr 2025
Continual Multimodal Contrastive Learning Xiaohao Liu Xiaobo Xia See-Kiong Ng Tat-Seng Chua CLL 54 0 0 19 Mar 2025
Filter Like You Test: Data-Driven Data Filtering for CLIP Pretraining Mikey Shechter Yair Carmon CLIP 37 0 0 11 Mar 2025
Rethinking Data Synthesis: A Teacher Model Training Recipe with Interpretation Yifang Chen David Zhu SyDa 25 0 0 27 Oct 2024
Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining Han Huang Yuqi Huo Zijia Zhao Haoyu Lu Shu Wu B. Wang Qiang Liu Weipeng Chen Liang Wang VLM 22 0 0 21 Oct 2024
Data-Efficient Contrastive Language-Image Pretraining: Prioritizing Data Quality over Quantity Siddharth Joshi Arnav Jain Ali Payani Baharan Mirzasoleiman VLM CLIP 18 8 0 18 Mar 2024
LESS: Selecting Influential Data for Targeted Instruction Tuning Mengzhou Xia Sadhika Malladi Suchin Gururangan Sanjeev Arora Danqi Chen 68 180 0 06 Feb 2024
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
How Much Can CLIP Benefit Vision-and-Language Tasks? Sheng Shen Liunian Harold Li Hao Tan Mohit Bansal Anna Rohrbach Kai-Wei Chang Z. Yao Kurt Keutzer CLIP VLM MLLM 174 342 0 13 Jul 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 845 0 17 Feb 2021