v1v2 (latest)

Cross-Modal Adapter for Vision-Language Retrieval

Pattern Recognition (Pattern Recogn.), 2022

17 November 2022

ArXiv (abs)PDF HTML Github (55★)

Papers citing "Cross-Modal Adapter for Vision-Language Retrieval"

31 / 31 papers shown

Repeating Words for Video-Language Retrieval with Coarse-to-Fine Objectives

198

20 Aug 2025

pFedMMA: Personalized Federated Fine-Tuning with Multi-Modal Adapter for Vision-Language Models

382

07 Jul 2025

Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval

198

22 May 2025

UP-Person: Unified Parameter-Efficient Transfer Learning for Text-based Person Retrieval

313

14 Apr 2025

A Resource-Efficient Training Framework for Remote Sensing Text--Image Retrieval

295

18 Jan 2025

SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video SegmentationComputer Vision and Pattern Recognition (CVPR), 2024

581

26 Nov 2024

SPECTRUM: Semantic Processing and Emotion-informed video-Captioning Through Retrieval and Understanding Modalities

Ehsan Faghihi

Mohammedreza Zarenejad

Ali-Asghar Beheshti Shirazi

299

04 Nov 2024

Beyond Coarse-Grained Matching in Video-Text RetrievalAsian Conference on Computer Vision (ACCV), 2024

Aozhu Chen

Hazel Doughty

Xirong Li

Cees G. M. Snoek

330

16 Oct 2024

Deep Transfer Learning: Model Framework and Error Analysis

518

12 Oct 2024

MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression ComprehensionConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

667

20 Sep 2024

OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities

Hanane Azzag

M. Lebbah

ObjD

383

17 Sep 2024

Selective Vision-Language Subspace Projection for Few-shot CLIP

Beier Zhu

Yanbin Hao

265

24 Jul 2024

Structure-aware World Model for Probe Guidance via Large-scale Self-supervised Pre-train

Shiji Song

Gao Huang

334

28 Jun 2024

Cardiac Copilot: Automatic Probe Guidance for Echocardiography with World ModelInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2024

Shiji Song

Gao Huang

235

19 Jun 2024

Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data PerspectivesAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

648

09 Jun 2024

RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter

Xiaodan Liang

340

29 May 2024

CLIP model is an Efficient Online Lifelong Learner

294

24 May 2024

DARA: Domain- and Relation-aware Adapters Make Parameter-efficient Tuning for Visual GroundingIEEE International Conference on Multimedia and Expo (ICME), 2024

Siteng Huang

321

10 May 2024

Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment

Tengjun Huang

439

28 Apr 2024

DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval

Yi Yang

347

19 Jan 2024

FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos

257

15 Jan 2024

Few-shot Adaptation of Multi-modal Foundation Models: A SurveyArtificial Intelligence Review (Artif Intell Rev), 2024

Fan Liu

Tianshu Zhang

Wenwen Dai

Wenwen Cai

Wenwen Cai Xiaocong Zhou

Delong Chen

VLM OffRL

377

03 Jan 2024

READ-PVLA: Recurrent Adapter with Partial Video-Language Alignment for Parameter-Efficient Transfer Learning in Low-Resource Video-Language ModelingAAAI Conference on Artificial Intelligence (AAAI), 2023

Zhiyuan Hu

See-Kiong Ng

247

12 Dec 2023

RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos

Tanveer Hannan

Md. Mohaiminul Islam

Thomas Seidl

Gedas Bertasius

574

11 Dec 2023

Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning

358

27 Nov 2023

Unified Coarse-to-Fine Alignment for Video-Text RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Gedas Bertasius

470

18 Sep 2023

Parameter-Efficient Transfer Learning for Remote Sensing Image-Text RetrievalIEEE Transactions on Geoscience and Remote Sensing (TGRS), 2023

Yuan. Yuan

Yangfan Zhan

Zhitong Xiong

VLM

290

24 Aug 2023

Prompt Switch: Efficient CLIP Adaptation for Text-Video RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Qi Chen

Qi Wu

294

15 Aug 2023

TaCA: Upgrading Your Visual Foundation Model with Task-agnostic Compatible Adapter

Ying Shan

239

22 Jun 2023

Visual TuningACM Computing Surveys (ACM Comput. Surv.), 2023

...

537

10 May 2023

Troika: Multi-Path Cross-Modal Traction for Compositional Zero-Shot LearningComputer Vision and Pattern Recognition (CVPR), 2023

Siteng Huang

Min Zhang

226

27 Mar 2023