CyCLIP: Cyclic Contrastive Language-Image Pretraining

28 May 2022

Papers citing "CyCLIP: Cyclic Contrastive Language-Image Pretraining"

50 / 101 papers shown

Title
Automated Data Curation Using GPS & NLP to Generate Instruction-Action Pairs for Autonomous Vehicle Vision-Language Navigation Datasets Guillermo Roque Erika Maquiling Jose Giovanni Tapia Lopez Ross Greer 22 0 0 06 May 2025
Post-pre-training for Modality Alignment in Vision-Language Foundation Models Shinýa Yamaguchi Dewei Feng Sekitoshi Kanai Kazuki Adachi Daiki Chijiwa VLM 29 0 0 17 Apr 2025
Position: Beyond Euclidean -- Foundation Models Should Embrace Non-Euclidean Geometries Neil He Jiahong Liu Buze Zhang N. Bui Ali Maatouk Menglin Yang Irwin King Melanie Weber Rex Ying 22 0 0 11 Apr 2025
Diversity Covariance-Aware Prompt Learning for Vision-Language Models Songlin Dong Zhengdong Zhou Chenhao Ding Xinyuan Gao Alex C. Kot Yihong Gong VPVLM VLM 39 0 0 03 Mar 2025
Rebalanced Vision-Language Retrieval Considering Structure-Aware Distillation Yang Yang Wenjuan Xi Luping Zhou Jinhui Tang 72 0 0 14 Dec 2024
Attention Head Purification: A New Perspective to Harness CLIP for Domain Generalization Yingfan Wang Guoliang Kang VLM 72 0 0 10 Dec 2024
Sound2Vision: Generating Diverse Visuals from Audio through Cross-Modal Latent Alignment Kim Sung-Bin Arda Senocak Hyunwoo Ha Tae-Hyun Oh DiffM 63 0 0 09 Dec 2024
Expanding Event Modality Applications through a Robust CLIP-Based Encoder SungHeon Jeong Hanning Chen Sanggeon Yun Suhyeon Cho Wenjun Huang Xiangjian Liu Mohsen Imani 87 1 0 04 Dec 2024
CoA: Chain-of-Action for Generative Semantic Labels Meng Wei Zhongnian Li Peng Ying Xinzheng Xu VLM 62 0 0 26 Nov 2024
RankByGene: Gene-Guided Histopathology Representation Learning Through Cross-Modal Ranking Consistency Wentao Huang Meilong Xu Xiaoling Hu Shahira Abousamra Aniruddha Ganguly ... Prateek Prasanna Tahsin M. Kurc Joel H. Saltz Michael L. Miller C. L. P. Chen 73 0 0 22 Nov 2024
TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives Maitreya Patel Abhiram Kusumba Sheng Cheng Changhoon Kim Tejas Gokhale Chitta Baral Yezhou Yang CoGe CLIP 34 7 0 04 Nov 2024
Bridging the Modality Gap: Dimension Information Alignment and Sparse Spatial Constraint for Image-Text Matching Xiang Ma Xuemei Li Lexin Fang Caiming Zhang 21 0 0 22 Oct 2024
You Only Speak Once to See Wenhao Yang Jianguo Wei Wenhuan Lu Lei Li VOS 18 1 0 27 Sep 2024
Adversarial Backdoor Defense in CLIP Junhao Kuang Siyuan Liang Jiawei Liang Kuanrong Liu Xiaochun Cao AAML 18 1 0 24 Sep 2024
Finetuning CLIP to Reason about Pairwise Differences Dylan Sam Devin Willmott João Dias Semedo J. Zico Kolter VLM 45 3 0 15 Sep 2024
Meta-Learn Unimodal Signals with Weak Supervision for Multimodal Sentiment Analysis Sijie Mai Yu Zhao Ying Zeng Jianhua Yao Haifeng Hu 20 2 0 28 Aug 2024
Visual Neural Decoding via Improved Visual-EEG Semantic Consistency Hongzhou Chen Lianghua He Yihang Liu Longzhen Yang 22 1 0 13 Aug 2024
Multi-modal Relation Distillation for Unified 3D Representation Learning Huiqun Wang Yiping Bao Panwang Pan Zeming Li Xiao Liu Ruijie Yang Di Huang 32 0 0 19 Jul 2024
Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment Arda Senocak H. Ryu Junsik Kim Tae-Hyun Oh Hanspeter Pfister Joon Son Chung 18 3 0 18 Jul 2024
FastCLIP: A Suite of Optimization Techniques to Accelerate CLIP Training with Limited Resources Xiyuan Wei Fanjiang Ye Ori Yonay Xingyu Chen Baixi Sun Dingwen Tao Tianbao Yang VLM CLIP 40 0 0 01 Jul 2024
Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP Sedigheh Eslami Gerard de Melo VLM 25 2 0 25 Jun 2024
SUGARCREPE++ Dataset: Vision-Language Model Sensitivity to Semantic and Lexical Alterations Sri Harsha Dumpala Aman Jaiswal Chandramouli Shama Sastry E. Milios Sageev Oore Hassan Sajjad CoGe 22 1 0 17 Jun 2024
Duoduo CLIP: Efficient 3D Understanding with Multi-View Images Han-Hung Lee Yiming Zhang Angel X. Chang 3DPC 26 3 0 17 Jun 2024
Exploring the Spectrum of Visio-Linguistic Compositionality and Recognition Youngtaek Oh Pyunghwan Ahn Jinhyung Kim Gwangmo Song Soonyoung Lee In So Kweon Junmo Kim CoGe 26 2 0 13 Jun 2024
ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs Irene Huang Wei Lin M. Jehanzeb Mirza Jacob A. Hansen Sivan Doveh ... Trevor Darrel Chuang Gan Aude Oliva Rogerio Feris Leonid Karlinsky CoGe LRM 28 1 0 12 Jun 2024
Wings: Learning Multimodal LLMs without Text-only Forgetting Yi-Kai Zhang Shiyin Lu Yang Li Yanqing Ma Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang De-Chuan Zhan Han-Jia Ye VLM 28 6 0 05 Jun 2024
Enhancing Large Vision Language Models with Self-Training on Image Comprehension Yihe Deng Pan Lu Fan Yin Ziniu Hu Sheng Shen James Y. Zou Kai-Wei Chang Wei Wang SyDa VLM LRM 31 36 0 30 May 2024
It's Not a Modality Gap: Characterizing and Addressing the Contrastive Gap Abrar Fahim Alex Murphy Alona Fyshe VLM 24 4 0 28 May 2024
Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View Jin Wang Shichao Dong Yapeng Zhu Kelu Yao Weidong Zhao Chao Li Ping Luo CoGe LRM 24 2 0 27 May 2024
Mitigating Noisy Correspondence by Geometrical Structure Consistency Learning Zihua Zhao Mengxi Chen Tianjie Dai Jiangchao Yao Bo han Ya-Qin Zhang Yanfeng Wang NoLa 28 1 0 27 May 2024
CLIBD: Bridging Vision and Genomics for Biodiversity Monitoring at Scale ZeMing Gong Austin T. Wang Joakim Bruslund Haurum Scott C. Lowe Graham W. Taylor Angel X. Chang Angel X. Chang 18 5 0 27 May 2024
CRoFT: Robust Fine-Tuning with Concurrent Optimization for OOD Generalization and Open-Set OOD Detection Lin Zhu Yifeng Yang Qinying Gu Xinbing Wang Cheng Zhou Nanyang Ye VLM 18 2 0 26 May 2024
Disease-informed Adaptation of Vision-Language Models Jiajin Zhang Ge Wang M. Kalra P. Yan VLM 18 2 0 24 May 2024
BDetCLIP: Multimodal Prompting Contrastive Test-Time Backdoor Detection Yuwei Niu Shuo He Qi Wei Feng Liu Lei Feng AAML 23 1 0 24 May 2024
FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models Adrian Bulat Yassine Ouali Georgios Tzimiropoulos VLM 24 0 0 16 May 2024
VISLA Benchmark: Evaluating Embedding Sensitivity to Semantic and Lexical Alterations Sri Harsha Dumpala Aman Jaiswal Chandramouli Shama Sastry E. Milios Sageev Oore Hassan Sajjad VLM CoGe 27 0 0 25 Apr 2024
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM Timin Gao Peixian Chen Mengdan Zhang Chaoyou Fu Yunhang Shen ... Shengchuan Zhang Xiawu Zheng Xing Sun Liujuan Cao Rongrong Ji MLLM LRM 33 15 0 24 Apr 2024
RankCLIP: Ranking-Consistent Language-Image Pretraining Yiming Zhang Zhuokai Zhao Zhaorun Chen Zhili Feng Zenghui Ding Yining Sun SSL VLM 31 7 0 15 Apr 2024
To Cool or not to Cool? Temperature Network Meets Large Foundation Models via DRO Zi-Hao Qiu Siqi Guo Mao Xu Tuo Zhao Lijun Zhang Tianbao Yang AI4TS AI4CE 26 2 0 06 Apr 2024
No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance Vishaal Udandarao Ameya Prabhu Adhiraj Ghosh Yash Sharma Philip H. S. Torr Adel Bibi Samuel Albanie Matthias Bethge VLM 103 43 0 04 Apr 2024
Towards Multimodal In-Context Learning for Vision & Language Models Sivan Doveh Shaked Perek M. Jehanzeb Mirza Wei Lin Amit Alfassy Assaf Arbelle S. Ullman Leonid Karlinsky VLM 104 13 0 19 Mar 2024
Improving Medical Multi-modal Contrastive Learning with Expert Annotations Yogesh Kumar Pekka Marttinen MedIm VLM 23 9 0 15 Mar 2024
Analysis of Using Sigmoid Loss for Contrastive Learning Chungpa Lee Joonhwan Chang Jy-yong Sohn 29 2 0 20 Feb 2024
Zoom-shot: Fast and Efficient Unsupervised Zero-Shot Transfer of CLIP to Vision Encoders with Multimodal Loss Jordan Shipard Arnold Wiliem Kien Nguyen Thanh Wei Xiang Clinton Fookes VLM CLIP 26 2 0 22 Jan 2024
SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment Ziping Ma Furong Xu Jian Liu Ming Yang Qingpei Guo VLM 22 3 0 04 Jan 2024
3VL: Using Trees to Improve Vision-Language Models' Interpretability Nir Yellinek Leonid Karlinsky Raja Giryes CoGe VLM 32 4 0 28 Dec 2023
Improved Visual Grounding through Self-Consistent Explanations Ruozhen He Paola Cascante-Bonilla Ziyan Yang Alexander C. Berg Vicente Ordonez ReLM ObjD LRM FAtt 14 8 0 07 Dec 2023
LightCLIP: Learning Multi-Level Interaction for Lightweight Vision-Language Models Ying Nie Wei He Kai Han Yehui Tang Tianyu Guo Fanyi Du Yunhe Wang VLM 11 1 0 01 Dec 2023
Synthesize, Diagnose, and Optimize: Towards Fine-Grained Vision-Language Understanding Wujian Peng Sicheng Xie Zuyao You Shiyi Lan Zuxuan Wu VLM CoGe MLLM 13 16 0 30 Nov 2023
E-ViLM: Efficient Video-Language Model via Masked Video Modeling with Semantic Vector-Quantized Tokenizer Jacob Zhiyuan Fang Skyler Zheng Vasu Sharma Robinson Piramuthu VLM 22 0 0 28 Nov 2023