v1v2 (latest)

TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval

IEEE International Conference on Computer Vision (ICCV), 2021

16 April 2021

Yang Liu

Papers citing "TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval"

50 / 77 papers shown

Information-Theoretic Criteria for Knowledge Distillation in Multimodal Learning

Rongrong Xie

Yizhou Xu

Guido Sanguinetti

122

15 Oct 2025

Dual Learning with Dynamic Knowledge Distillation and Soft Alignment for Partially Relevant Video Retrieval

127

14 Oct 2025

Hybrid-Tower: Fine-grained Pseudo-query Interaction and Generation for Text-to-Video Retrieval

110

05 Sep 2025

Repeating Words for Video-Language Retrieval with Coarse-to-Fine Objectives

164

20 Aug 2025

Hubness Reduction with Dual Bank Sinkhorn Normalization for Cross-Modal Retrieval

162

04 Aug 2025

Quantifying and Narrowing the Unknown: Interactive Text-to-Video Retrieval via Uncertainty Minimization

259

21 Jul 2025

Leveraging Auxiliary Information in Text-to-Video Retrieval: A Review

A. Fragomeni

Dima Damen

Michael Wray

243

29 May 2025

TC-MGC: Text-Conditioned Multi-Grained Contrastive Learning for Text-Video RetrievalInformation Fusion (Inf. Fusion), 2025

Xiaolun Jing

Genke Yang

Jian Chu

234

07 Apr 2025

Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval

A. Fragomeni

Dima Damen

Michael Wray

500

02 Apr 2025

Rethinking Knowledge in Distillation: An In-context Sample Retrieval Perspective

Jinjing Zhu

Songze Li

Lin Wang

325

13 Jan 2025

Hierarchical Banzhaf Interaction for General Video-Language Representation LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

414

31 Dec 2024

Manta: Enhancing Mamba for Few-Shot Action Recognition of Long Sub-SequenceAAAI Conference on Artificial Intelligence (AAAI), 2024

547

10 Dec 2024

Beyond Coarse-Grained Matching in Video-Text RetrievalAsian Conference on Computer Vision (ACCV), 2024

Aozhu Chen

Hazel Doughty

Xirong Li

Cees G. M. Snoek

307

16 Oct 2024

TokenBinder: Text-Video Retrieval with One-to-Many Alignment ParadigmIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

Xin Yu

Jiajun Liu

Sen Wang

VGen

210

30 Sep 2024

Learning Video Context as Interleaved Multimodal Sequences

248

31 Jul 2024

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action RecognitionACM Multimedia (MM), 2024

322

23 Jul 2024

Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment

Hao Fei

Meishan Zhang

283

27 Jun 2024

RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter

Xiaodan Liang

317

29 May 2024

ProTA: Probabilistic Token Aggregation for Text-Video Retrieval

Han Fang

Chao Ban

Zhongjiang He

Hao Sun

285

18 Apr 2024

Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval

338

26 Mar 2024

Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation LearningAAAI Conference on Artificial Intelligence (AAAI), 2024

Kaibin Tian

152

01 Jan 2024

Leveraging Generative Language Models for Weakly Supervised Sentence Component Analysis in Video-Language Joint Learning

Zaber Ibn Abdul Hakim

347

10 Dec 2023

TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language UnderstandingConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Shicheng Li

239

29 Oct 2023

InvGC: Robust Cross-Modal Retrieval by Inverse Graph Convolution

Xiangru Jian

Yimu Wang

259

20 Oct 2023

Balance Act: Mitigating Hubness in Cross-Modal Retrieval with Query and Gallery BanksConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Yimu Wang

Xiangru Jian

Bo Xue

204

17 Oct 2023

VideoAdviser: Video Knowledge Distillation for Multimodal Transfer LearningIEEE Access (IEEE Access), 2023

201

27 Sep 2023

Unified Coarse-to-Fine Alignment for Video-Text RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Gedas Bertasius

383

18 Sep 2023

In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Bernt Schiele

232

16 Sep 2023

Simple Baselines for Interactive Video Retrieval with Questions and AnswersIEEE International Conference on Computer Vision (ICCV), 2023

Kaiqu Liang

Samuel Albanie

201

21 Aug 2023

JEDI: Joint Expert Distillation in a Semi-Supervised Multi-Dataset Student-Teacher Scenario for Video Action Recognition

257

09 Aug 2023

TeachCLIP: Multi-Grained Teaching for Efficient Text-to-Video Retrieval

Kaibin Tian

02 Aug 2023

Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature AlignmentIEEE International Conference on Computer Vision (ICCV), 2023

287

24 Jul 2023

Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set AlignmentInternational Joint Conference on Artificial Intelligence (IJCAI), 2023

Hao Li

282

20 May 2023

Mask to reconstruct: Cooperative Semantics Completion for Video-text RetrievalACM Multimedia (ACM MM), 2023

Han Fang

Zhifei Yang

Xianghao Zang

Chao Ban

Hao Sun

VGen

246

13 May 2023

Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval

Jae Myung Kim

A. Sophia Koepke

Cordelia Schmid

Zeynep Akata

256

06 Apr 2023

Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation LearningComputer Vision and Pattern Recognition (CVPR), 2023

278

25 Mar 2023

DiffusionRet: Generative Text-Video Retrieval with Diffusion ModelIEEE International Conference on Computer Vision (ICCV), 2023

Hao Li

348

17 Mar 2023

Deep Learning for Video-Text Retrieval: a ReviewInternational Journal of Multimedia Information Retrieval (IJMIR), 2023

230

24 Feb 2023

Video-Text Retrieval by Supervised Sparse Multi-Grained LearningConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Yimu Wang

Peng Shi

238

19 Feb 2023

Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text RetrievalAAAI Conference on Artificial Intelligence (AAAI), 2023

Ying Shan

257

30 Jan 2023

UATVR: Uncertainty-Adaptive Text-Video RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Jingdong Wang

267

16 Jan 2023

Normalized Contrastive Learning for Text-Video RetrievalConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

177

30 Nov 2022

Expectation-Maximization Contrastive Learning for Compact Video-and-Language RepresentationsNeural Information Processing Systems (NeurIPS), 2022

307

21 Nov 2022

RaP: Redundancy-aware Video-language Pre-training for Text-Video RetrievalConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

162

13 Oct 2022

Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive LearningNeural Information Processing Systems (NeurIPS), 2022

297

12 Oct 2022

Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval BenchmarksFindings (Findings), 2022

226

10 Oct 2022

ConTra: (Con)text (Tra)nsformer for Cross-Modal Video RetrievalAsian Conference on Computer Vision (ACCV), 2022

A. Fragomeni

Michael Wray

Dima Damen

CLIP ViT

158

09 Oct 2022

C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video RetrievalIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

218

07 Oct 2022

Text-Adaptive Multiple Visual Prototype Matching for Video-Text RetrievalNeural Information Processing Systems (NeurIPS), 2022

Chunhua Shen

218

27 Sep 2022

OmniVL:One Foundation Model for Image-Language and Video-Language TasksNeural Information Processing Systems (NeurIPS), 2022

Zuxuan Wu

Lu Yuan

294

178

15 Sep 2022