Unified Contrastive Learning in Image-Text-Label Space

7 April 2022

Jianwei Yang

Lu Yuan

Papers citing "Unified Contrastive Learning in Image-Text-Label Space"

30 / 30 papers shown

Title
Transmission Line Defect Detection Based on UAV Patrol Images and Vision-language Pretraining Ke Zhang Zhaoye Zheng Yurong Guo Jiacun Wang Jiyuan Yang Yangjie Xiao VLM 77 0 0 18 Nov 2024
Past, Present, and Future of Sensor-Based Human Activity Recognition Using Wearables: A Surveying Tutorial on a Still Challenging Task H. Haresamudram Chi Ian Tang Sungho Suh P. Lukowicz Thomas Ploetz 74 2 0 11 Nov 2024
Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment Konstantin Schall Kai Uwe Barthel Nico Hezel Klaus Jung VLM 23 3 0 03 Sep 2024
Prompt-Driven Contrastive Learning for Transferable Adversarial Attacks Hunmin Yang Jongoh Jeong Kuk-Jin Yoon AAML VLM 47 4 0 30 Jul 2024
Duoduo CLIP: Efficient 3D Understanding with Multi-View Images Han-Hung Lee Yiming Zhang Angel X. Chang 3DPC 36 3 0 17 Jun 2024
UniDEC : Unified Dual Encoder and Classifier Training for Extreme Multi-Label Classification Siddhant Kharbanda Devaansh Gupta K. Gururaj Pankaj Malhotra Cho-Jui Hsieh Rohit Babbar Rohit Babbar 31 0 0 04 May 2024
Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models Yifei Ming Yixuan Li VLM 23 7 0 02 May 2024
Unifying Global and Local Scene Entities Modelling for Precise Action Spotting Kim Hoang Tran Phuc Vuong Do Ngoc Quoc Ly Ngan Le 24 4 0 15 Apr 2024
Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation Sina Hajimiri Ismail Ben Ayed Jose Dolz VLM 31 22 0 12 Apr 2024
Heterogeneous Contrastive Learning for Foundation Models and Beyond Lecheng Zheng Baoyu Jing Zihao Li Hanghang Tong Jingrui He VLM 24 18 0 30 Mar 2024
Modality-Collaborative Transformer with Hybrid Feature Reconstruction for Robust Emotion Recognition Chengxin Chen Pengyuan Zhang 24 5 0 26 Dec 2023
CWCL: Cross-Modal Transfer with Continuously Weighted Contrastive Loss R. S. Srinivasa Jaejin Cho Chouchang Yang Yashas Malur Saidutta Ching Hua Lee Yilin Shen Hongxia Jin VLM 16 8 0 26 Sep 2023
A Foundation Language-Image Model of the Retina (FLAIR): Encoding Expert Knowledge in Text Supervision Julio Silva-Rodríguez H. Chakor Riadh Kobbi Jose Dolz Ismail Ben Ayed VLM MedIm 53 32 0 15 Aug 2023
Foundational Models Defining a New Era in Vision: A Survey and Outlook Muhammad Awais Muzammal Naseer Salman Khan Rao Muhammad Anwer Hisham Cholakkal M. Shah Ming Yang F. Khan VLM 13 116 0 25 Jul 2023
Multi-Similarity Contrastive Learning Emily Mu John Guttag Maggie Makar SSL 23 2 0 06 Jul 2023
Sigmoid Loss for Language Image Pre-Training Xiaohua Zhai Basil Mustafa Alexander Kolesnikov Lucas Beyer CLIP VLM 12 917 0 27 Mar 2023
Best of Both Worlds: Multimodal Contrastive Learning with Tabular and Imaging Data Paul Hager M. Menten Daniel Rueckert 19 47 0 24 Mar 2023
RILS: Masked Visual Reconstruction in Language Semantic Space Shusheng Yang Yixiao Ge Kun Yi Dian Li Ying Shan Xiaohu Qie Xinggang Wang CLIP 19 11 0 17 Jan 2023
Masked Reconstruction Contrastive Learning with Information Bottleneck Principle Ziwen Liu Bonan Li Congying Han Tiande Guo Xuecheng Nie SSL 19 2 0 15 Nov 2022
VIPHY: Probing "Visible" Physical Commonsense Knowledge Shikhar Singh Ehsan Qasemi Muhao Chen 29 6 0 15 Sep 2022
CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for Image-Text Retrieval Haoran Wang Dongliang He Wenhao Wu Boyang Xia Min Yang Fu Li Yunlong Yu Zhong Ji Errui Ding Jingdong Wang 19 22 0 21 Aug 2022
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition Wenhao Wu Zhun Sun Wanli Ouyang VLM 87 93 0 04 Jul 2022
Prefix Conditioning Unifies Language and Label Supervision Kuniaki Saito Kihyuk Sohn X. Zhang Chun-Liang Li Chen-Yu Lee Kate Saenko Tomas Pfister VLM CLIP 22 15 0 02 Jun 2022
CoCa: Contrastive Captioners are Image-Text Foundation Models Jiahui Yu Zirui Wang Vijay Vasudevan Legg Yeung Mojtaba Seyedhosseini Yonghui Wu VLM CLIP OffRL 27 1,249 0 04 May 2022
TEMOS: Generating diverse human motions from textual descriptions Mathis Petrovich Michael J. Black Gül Varol 40 365 0 25 Apr 2022
Focal Modulation Networks Jianwei Yang Chunyuan Li Xiyang Dai Lu Yuan Jianfeng Gao 3DPC 16 261 0 22 Mar 2022
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 283 5,723 0 29 Apr 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 263 3,538 0 24 Feb 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 1,077 0 17 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021