v1v2 (latest)

TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval

IEEE International Conference on Computer Vision (ICCV), 2021

16 April 2021

Yang Liu

Papers citing "TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval"

50 / 77 papers shown

Information-Theoretic Criteria for Knowledge Distillation in Multimodal Learning

Rongrong Xie

Yizhou Xu

Guido Sanguinetti

119

15 Oct 2025

Dual Learning with Dynamic Knowledge Distillation and Soft Alignment for Partially Relevant Video Retrieval

119

14 Oct 2025

Hybrid-Tower: Fine-grained Pseudo-query Interaction and Generation for Text-to-Video Retrieval

110

05 Sep 2025

Repeating Words for Video-Language Retrieval with Coarse-to-Fine Objectives

152

20 Aug 2025

Hubness Reduction with Dual Bank Sinkhorn Normalization for Cross-Modal Retrieval

161

04 Aug 2025

Quantifying and Narrowing the Unknown: Interactive Text-to-Video Retrieval via Uncertainty Minimization

248

21 Jul 2025

Leveraging Auxiliary Information in Text-to-Video Retrieval: A Review

A. Fragomeni

Dima Damen

Michael Wray

233

29 May 2025

TC-MGC: Text-Conditioned Multi-Grained Contrastive Learning for Text-Video RetrievalInformation Fusion (Inf. Fusion), 2025

Xiaolun Jing

Genke Yang

Jian Chu

228

07 Apr 2025

Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval

A. Fragomeni

Dima Damen

Michael Wray

486

02 Apr 2025

Rethinking Knowledge in Distillation: An In-context Sample Retrieval Perspective

Jinjing Zhu

Songze Li

Lin Wang

317

13 Jan 2025

Hierarchical Banzhaf Interaction for General Video-Language Representation LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

395

31 Dec 2024

Manta: Enhancing Mamba for Few-Shot Action Recognition of Long Sub-SequenceAAAI Conference on Artificial Intelligence (AAAI), 2024

528

10 Dec 2024

Beyond Coarse-Grained Matching in Video-Text RetrievalAsian Conference on Computer Vision (ACCV), 2024

Aozhu Chen

Hazel Doughty

Xirong Li

Cees G. M. Snoek

306

16 Oct 2024

TokenBinder: Text-Video Retrieval with One-to-Many Alignment ParadigmIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

Xin Yu

Jiajun Liu

Sen Wang

VGen

210

30 Sep 2024

Learning Video Context as Interleaved Multimodal Sequences

246

31 Jul 2024

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action RecognitionACM Multimedia (MM), 2024

276

23 Jul 2024

Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment

Hao Fei

Meishan Zhang

277

27 Jun 2024

RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter

Xiaodan Liang

302

29 May 2024

ProTA: Probabilistic Token Aggregation for Text-Video Retrieval

Han Fang

Chao Ban

Zhongjiang He

Hao Sun

283

18 Apr 2024

Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval

333

26 Mar 2024

Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation LearningAAAI Conference on Artificial Intelligence (AAAI), 2024

Kaibin Tian

151

01 Jan 2024

Leveraging Generative Language Models for Weakly Supervised Sentence Component Analysis in Video-Language Joint Learning

Zaber Ibn Abdul Hakim

303

10 Dec 2023

TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language UnderstandingConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Shicheng Li

229

29 Oct 2023

InvGC: Robust Cross-Modal Retrieval by Inverse Graph Convolution

Xiangru Jian

Yimu Wang

235

20 Oct 2023

Balance Act: Mitigating Hubness in Cross-Modal Retrieval with Query and Gallery BanksConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Yimu Wang

Xiangru Jian

Bo Xue

190

17 Oct 2023

VideoAdviser: Video Knowledge Distillation for Multimodal Transfer LearningIEEE Access (IEEE Access), 2023

189

27 Sep 2023

Unified Coarse-to-Fine Alignment for Video-Text RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Gedas Bertasius

380

18 Sep 2023

In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Bernt Schiele

229

16 Sep 2023

Simple Baselines for Interactive Video Retrieval with Questions and AnswersIEEE International Conference on Computer Vision (ICCV), 2023

Kaiqu Liang

Samuel Albanie

200

21 Aug 2023

JEDI: Joint Expert Distillation in a Semi-Supervised Multi-Dataset Student-Teacher Scenario for Video Action Recognition

257

09 Aug 2023

TeachCLIP: Multi-Grained Teaching for Efficient Text-to-Video Retrieval

Kaibin Tian

02 Aug 2023

Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature AlignmentIEEE International Conference on Computer Vision (ICCV), 2023

283

24 Jul 2023

Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set AlignmentInternational Joint Conference on Artificial Intelligence (IJCAI), 2023

Hao Li

279

20 May 2023

Mask to reconstruct: Cooperative Semantics Completion for Video-text RetrievalACM Multimedia (ACM MM), 2023

Han Fang

Zhifei Yang

Xianghao Zang

Chao Ban

Hao Sun

VGen

240

13 May 2023

Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval

Jae Myung Kim

A. Sophia Koepke

Cordelia Schmid

Zeynep Akata

248

06 Apr 2023

Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation LearningComputer Vision and Pattern Recognition (CVPR), 2023

271

25 Mar 2023

DiffusionRet: Generative Text-Video Retrieval with Diffusion ModelIEEE International Conference on Computer Vision (ICCV), 2023

Hao Li

340

17 Mar 2023

Deep Learning for Video-Text Retrieval: a ReviewInternational Journal of Multimedia Information Retrieval (IJMIR), 2023

226

24 Feb 2023

Video-Text Retrieval by Supervised Sparse Multi-Grained LearningConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Yimu Wang

Peng Shi

233

19 Feb 2023

Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text RetrievalAAAI Conference on Artificial Intelligence (AAAI), 2023

Ying Shan

245

30 Jan 2023

UATVR: Uncertainty-Adaptive Text-Video RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Jingdong Wang

246

16 Jan 2023

Normalized Contrastive Learning for Text-Video RetrievalConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

155

30 Nov 2022

Expectation-Maximization Contrastive Learning for Compact Video-and-Language RepresentationsNeural Information Processing Systems (NeurIPS), 2022

300

21 Nov 2022

RaP: Redundancy-aware Video-language Pre-training for Text-Video RetrievalConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

149

13 Oct 2022

Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive LearningNeural Information Processing Systems (NeurIPS), 2022

273

12 Oct 2022

Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval BenchmarksFindings (Findings), 2022

214

10 Oct 2022

ConTra: (Con)text (Tra)nsformer for Cross-Modal Video RetrievalAsian Conference on Computer Vision (ACCV), 2022

A. Fragomeni

Michael Wray

Dima Damen

CLIP ViT

144

09 Oct 2022

C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video RetrievalIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

210

07 Oct 2022

Text-Adaptive Multiple Visual Prototype Matching for Video-Text RetrievalNeural Information Processing Systems (NeurIPS), 2022

Chunhua Shen

213

27 Sep 2022

OmniVL:One Foundation Model for Image-Language and Video-Language TasksNeural Information Processing Systems (NeurIPS), 2022

Zuxuan Wu

Lu Yuan

284

178

15 Sep 2022