CyCLIP: Cyclic Contrastive Language-Image Pretraining

28 May 2022

Papers citing "CyCLIP: Cyclic Contrastive Language-Image Pretraining"

50 / 101 papers shown

Title
Compositional Chain-of-Thought Prompting for Large Multimodal Models Chancharik Mitra Brandon Huang Trevor Darrell Roei Herzig MLLM LRM 15 80 0 27 Nov 2023
Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective Sahil Verma Gantavya Bhatt Avi Schwarzschild Soumye Singhal Arnav M. Das Chirag Shah John P Dickerson Jeff Bilmes J. Bilmes AAML 46 1 0 25 Nov 2023
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning Siyuan Liang Mingli Zhu Aishan Liu Baoyuan Wu Xiaochun Cao Ee-Chien Chang 12 48 0 20 Nov 2023
Cross-modal Active Complementary Learning with Self-refining Correspondence Yang Qin Yuan Sun Dezhong Peng Joey Tianyi Zhou Xiaocui Peng Peng Hu 13 18 0 26 Oct 2023
Understanding the Robustness of Multi-modal Contrastive Learning to Distribution Shift Yihao Xue Siddharth Joshi Dang Nguyen Baharan Mirzasoleiman VLM 13 4 0 08 Oct 2023
Better Safe than Sorry: Pre-training CLIP against Targeted Data Poisoning and Backdoor Attacks Wenhan Yang Jingdong Gao Baharan Mirzasoleiman VLM 19 6 0 05 Oct 2023
Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency Tianhong Li Sangnie Bhardwaj Yonglong Tian Han Zhang Jarred Barber Dina Katabi Guillaume Lajoie Huiwen Chang Dilip Krishnan VLM 28 4 0 05 Oct 2023
EditVal: Benchmarking Diffusion Based Text-Guided Image Editing Methods Samyadeep Basu Mehrdad Saberi S. Bhardwaj Atoosa Malemir Chegini Daniela Massiceti Maziar Sanjabi S. Hu S. Feizi 36 16 0 03 Oct 2023
Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP Zixiang Chen Yihe Deng Yuanzhi Li Quanquan Gu VLM 16 10 0 02 Oct 2023
TAP: Targeted Prompting for Task Adaptive Generation of Textual Training Instances for Visual Classification M. Jehanzeb Mirza Leonid Karlinsky Wei Lin Horst Possegger Rogerio Feris Horst Bischof VLM 22 6 0 13 Sep 2023
Distribution-Aware Prompt Tuning for Vision-Language Models Eulrang Cho Jooyeon Kim Hyunwoo J. Kim VPVLM VLM 22 7 0 06 Sep 2023
ViLLA: Fine-Grained Vision-Language Representation Learning from Real-World Data M. Varma Jean-Benoit Delbrouck Sarah Hooper Akshay S. Chaudhari C. Langlotz VLM CoGe 32 4 0 22 Aug 2023
An Empirical Study of CLIP for Text-based Person Search Min Cao Yang Bai Ziyin Zeng Mang Ye Min Zhang VLM 23 32 0 19 Aug 2023
FULLER: Unified Multi-modality Multi-task 3D Perception via Multi-level Gradient Calibration Zhiji Huang Sihao Lin Guiyu Liu Mukun Luo Chao Ye Hang Xu Xiaojun Chang Xiaodan Liang 25 4 0 31 Jul 2023
Mini-Batch Optimization of Contrastive Loss Jaewoong Cho Kartik K. Sreenivasan Keon Lee Kyunghoo Mun Soheun Yi Jeong-Gwan Lee Anna Lee Jy-yong Sohn Dimitris Papailiopoulos Kangwook Lee SSL 19 7 0 12 Jul 2023
Linear Alignment of Vision-language Models for Image Captioning Fabian Paischer M. Hofmarcher Sepp Hochreiter Thomas Adler CLIP VLM 26 0 0 10 Jul 2023
Encoding Time-Series Explanations through Self-Supervised Model Behavior Consistency Owen Queen Thomas Hartvigsen Teddy Koker Huan He Theodoros Tsiligkaridis Marinka Zitnik AI4TS 29 16 0 03 Jun 2023
Med-UniC: Unifying Cross-Lingual Medical Vision-Language Pre-Training by Diminishing Bias Zhongwei Wan Che Liu Mi Zhang Jie Fu Benyou Wang Sibo Cheng Lei Ma César Quilodrán-Casas Rossella Arcucci 32 67 0 31 May 2023
Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models Sivan Doveh Assaf Arbelle Sivan Harary Roei Herzig Donghyun Kim ... Rameswar Panda Raja Giryes Rogerio Feris S. Ullman Leonid Karlinsky VLM CoGe 21 52 0 31 May 2023
LaFTer: Label-Free Tuning of Zero-shot Classifier using Language and Unlabeled Image Collections M. Jehanzeb Mirza Leonid Karlinsky Wei Lin Mateusz Koziñski Horst Possegger Rogerio Feris Horst Bischof VLM 29 26 0 29 May 2023
S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist Captions Sangwoo Mo Minkyu Kim Kyungmin Lee Jinwoo Shin VLM CLIP 17 15 0 23 May 2023
Not All Semantics are Created Equal: Contrastive Self-supervised Learning with Automatic Temperature Individualization Zimeng Qiu Quanqi Hu Zhuoning Yuan Denny Zhou Lijun Zhang Tianbao Yang 19 11 0 19 May 2023
Improved baselines for vision-language pre-training Enrico Fini Pietro Astolfi Adriana Romero Soriano Jakob Verbeek M. Drozdzal SSL CLIP VLM 32 22 0 15 May 2023
Incorporating Structured Representations into Pretrained Vision & Language Models Using Scene Graphs Roei Herzig Alon Mendelson Leonid Karlinsky Assaf Arbelle Rogerio Feris Trevor Darrell Amir Globerson VLM 23 31 0 10 May 2023
SATIN: A Multi-Task Metadataset for Classifying Satellite Imagery using Vision-Language Models Jonathan Roberts Kai Han Samuel Albanie VLM 14 12 0 23 Apr 2023
FindVehicle and VehicleFinder: A NER dataset for natural language-based vehicle retrieval and a keyword-based cross-modal vehicle retrieval system Runwei Guan Ka Lok Man Feifan Chen Shanliang Yao Rongsheng Hu Xiaohui Zhu Jeremy S. Smith Eng Gee Lim Yutao Yue 8 15 0 21 Apr 2023
Going Beyond Nouns With Vision & Language Models Using Synthetic Data Paola Cascante-Bonilla Khaled Shehada James Smith Sivan Doveh Donghyun Kim ... Gül Varol A. Oliva Vicente Ordonez Rogerio Feris Leonid Karlinsky VLM SyDa 20 40 0 30 Mar 2023
SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger Yuting Gao Jinfeng Liu Zi-Han Xu Tong Wu W. Liu Jie-jin Yang Keren Li Xingen Sun CLIP VLM 17 41 0 30 Mar 2023
Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual Mask Annotations VS Vibashan Ning Yu Chen Xing Can Qin M. Gao Juan Carlos Niebles Vishal M. Patel Ran Xu VLM ISeg 13 13 0 29 Mar 2023
Equivariant Similarity for Vision-Language Foundation Models Tan Wang Kevin Qinghong Lin Linjie Li Chung-Ching Lin Zhengyuan Yang Hanwang Zhang Zicheng Liu Lijuan Wang CoGe 25 44 0 25 Mar 2023
CLIP goes 3D: Leveraging Prompt Tuning for Language Grounded 3D Recognition Deepti Hegde Jeya Maria Jose Valanarasu Vishal M. Patel CLIP 22 44 0 20 Mar 2023
MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action Recognition with Language Knowledge Wei Lin Leonid Karlinsky Nina Shvetsova Horst Possegger Mateusz Koziñski Rameswar Panda Rogerio Feris Hilde Kuehne Horst Bischof VLM 92 38 0 15 Mar 2023
Robust Contrastive Language-Image Pre-training against Data Poisoning and Backdoor Attacks Wenhan Yang Jingdong Gao Baharan Mirzasoleiman VLM 94 17 0 13 Mar 2023
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning Qian Jiang Changyou Chen Han Zhao Liqun Chen Q. Ping S. D. Tran Yi Xu Belinda Zeng Trishul M. Chilimbi 35 36 0 10 Mar 2023
CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive Learning Hritik Bansal Nishad Singhi Yu Yang Fan Yin Aditya Grover Kai-Wei Chang AAML 16 26 0 06 Mar 2023
Leaving Reality to Imagination: Robust Classification via Generated Datasets Hritik Bansal Aditya Grover OOD 23 86 0 05 Feb 2023
CLIPood: Generalizing CLIP to Out-of-Distributions Yang Shu Xingzhuo Guo Jialong Wu Ximei Wang Jianmin Wang Mingsheng Long OODD VLM 28 74 0 02 Feb 2023
CREPE: Can Vision-Language Foundation Models Reason Compositionally? Zixian Ma Jerry Hong Mustafa Omer Gul Mona Gandhi Irena Gao Ranjay Krishna CoGe 16 124 0 13 Dec 2022
Graph Matching with Bi-level Noisy Correspondence Yijie Lin Mouxing Yang Jun Yu Peng Hu Changqing Zhang Xiaocui Peng 19 30 0 08 Dec 2022
ADIR: Adaptive Diffusion for Image Reconstruction Shady Abu Hussein Tom Tirer Raja Giryes DiffM 13 16 0 06 Dec 2022
SuS-X: Training-Free Name-Only Transfer of Vision-Language Models Vishaal Udandarao Ankush Gupta Samuel Albanie VLM MLLM 14 103 0 28 Nov 2022
Teaching Structured Vision&Language Concepts to Vision&Language Models Sivan Doveh Assaf Arbelle Sivan Harary Rameswar Panda Roei Herzig ... Donghyun Kim Raja Giryes Rogerio Feris S. Ullman Leonid Karlinsky VLM CoGe 34 70 0 21 Nov 2022
ConStruct-VL: Data-Free Continual Structured VL Concepts Learning James Smith Paola Cascante-Bonilla Assaf Arbelle Donghyun Kim Rameswar Panda David D. Cox Diyi Yang Z. Kira Rogerio Feris Leonid Karlinsky VLM 25 12 0 17 Nov 2022
Stochastic Constrained DRO with a Complexity Independent of Sample Size Q. Qi Jiameng Lyu Kung-Sik Chan E. Bai Tianbao Yang 48 14 0 11 Oct 2022
MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining Xiaoyi Dong Jianmin Bao Yinglin Zheng Ting Zhang Dongdong Chen ... Weiming Zhang Lu Yuan Dong Chen Fang Wen Nenghai Yu CLIP VLM 27 103 0 25 Aug 2022
Single-Stream Multi-Level Alignment for Vision-Language Pretraining Zaid Khan B. Vijaykumar Xiang Yu S. Schulter Manmohan Chandraker Y. Fu CLIP VLM 12 16 0 27 Mar 2022
Geodesic Multi-Modal Mixup for Robust Fine-Tuning Changdae Oh Junhyuk So Hoyoon Byun Yongtaek Lim Minchul Shin Jong-June Jeon Kyungwoo Song 13 24 0 08 Mar 2022
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,735 0 24 Feb 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 845 0 17 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 2,875 0 11 Feb 2021