Misalign, Contrast then Distill: Rethinking Misalignments in Language-Image Pretraining

19 December 2023

Papers citing "Misalign, Contrast then Distill: Rethinking Misalignments in Language-Image Pretraining"

8 / 8 papers shown

Title
Negate or Embrace: On How Misalignment Shapes Multimodal Representation Learning Yichao Cai Yuhang Liu Erdun Gao T. Jiang Zhen Zhang Anton van den Hengel J. Shi 55 0 0 14 Apr 2025
Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data Haoxin Li Boyang Li CoGe 69 0 0 03 Mar 2025
DreamLIP: Language-Image Pre-training with Long Captions Kecheng Zheng Yifei Zhang Wei Wu Fan Lu Shuailei Ma Xin Jin Wei Chen Yujun Shen VLM CLIP 32 24 0 25 Mar 2024
MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric Haokun Lin Haoli Bai Zhili Liu Lu Hou Muyi Sun Linqi Song Ying Wei Zhenan Sun CLIP VLM 50 14 0 12 Mar 2024
HiCLIP: Contrastive Language-Image Pretraining with Hierarchy-aware Attention Shijie Geng Jianbo Yuan Yu Tian Yuxiao Chen Yongfeng Zhang CLIP VLM 41 44 0 06 Mar 2023
UniCLIP: Unified Framework for Contrastive Language-Image Pre-training Janghyeon Lee Jongsuk Kim Hyounguk Shon Bumsoo Kim Seung Wook Kim Honglak Lee Junmo Kim CLIP VLM 50 53 0 27 Sep 2022
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,689 0 11 Feb 2021
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 282 39,190 0 01 Sep 2014