Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning

27 November 2023

Papers citing "Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning"

9 / 9 papers shown

Title
Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions Chan hur Jeong-hun Hong Dong-hun Lee Dabin Kang Semin Myeong Sang-hyo Park Hyeyoung Park 49 0 0 07 Mar 2025
Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? Wenhao Wu Haipeng Luo Bo Fang Jingdong Wang Wanli Ouyang 88 80 0 31 Dec 2022
Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang 94 47 0 31 Dec 2022
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition Wenhao Wu Zhun Sun Wanli Ouyang VLM 87 93 0 04 Jul 2022
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 303 771 0 18 Apr 2021
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 278 3,784 0 18 Apr 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 278 1,939 0 09 Feb 2021
MVFNet: Multi-View Fusion Network for Efficient Video Recognition Wenhao Wu Dongliang He Tianwei Lin Fu Li Chuang Gan Errui Ding 85 68 0 13 Dec 2020
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 398 532 0 21 Jul 2020