v1v2 (latest)

HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval

IEEE International Conference on Computer Vision (ICCV), 2021

28 March 2021

Papers citing "HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval"

50 / 82 papers shown

Frame-Difference Guided Dynamic Region Perception for CLIP Adaptation in Text-Video Retrieval

139

21 Oct 2025

Leveraging Auxiliary Information in Text-to-Video Retrieval: A Review

A. Fragomeni

Dima Damen

Michael Wray

270

29 May 2025

TC-MGC: Text-Conditioned Multi-Grained Contrastive Learning for Text-Video RetrievalInformation Fusion (Inf. Fusion), 2025

Xiaolun Jing

Genke Yang

Jian Chu

258

07 Apr 2025

Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval

A. Fragomeni

Dima Damen

Michael Wray

612

02 Apr 2025

Long-VMNet: Accelerating Long-Form Video Understanding via Fixed Memory

Saket Gurukar

Asim Kadav

VLM

463

17 Mar 2025

Decomposing Relationship from 1-to-N into N 1-to-1 for Text-Video RetrievalAAAI Conference on Artificial Intelligence (AAAI), 2024

Jian Xiao

Zhenzhen Hu

Jia Li

Richang Hong

181

09 Oct 2024

TokenBinder: Text-Video Retrieval with One-to-Many Alignment ParadigmIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

Xin Yu

Jiajun Liu

Sen Wang

VGen

279

30 Sep 2024

ActPrompt: In-Domain Feature Adaptation via Action Cues for Video Temporal Grounding

Yubin Wang

279

13 Aug 2024

Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset

Yuchen Yang

Yingxuan Duan

VGen

233

19 Jun 2024

An Empirical Study of Excitation and Aggregation Design Adaptions in CLIP4Clip for Video-Text Retrieval

302

25 May 2024

From CNNs to Transformers in Multimodal Human Action Recognition: A Survey

Muhammad Bilal Shaikh

Syed Mohammed Shamsul Islam

Douglas Chai

Naveed Akhtar

439

22 May 2024

A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision

376

16 May 2024

Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching

Huchuan Lu

440

28 Apr 2024

ProTA: Probabilistic Token Aggregation for Text-Video Retrieval

Han Fang

Chao Ban

Zhongjiang He

Hao Sun

398

18 Apr 2024

vid-TLDR: Training Free Token merging for Light-weight Video Transformer

358

20 Mar 2024

Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation LearningAAAI Conference on Artificial Intelligence (AAAI), 2024

Kaibin Tian

189

01 Jan 2024

Expediting Contrastive Language-Image Pretraining via Self-distilled Encoders

327

19 Dec 2023

Leveraging Generative Language Models for Weakly Supervised Sentence Component Analysis in Video-Language Joint Learning

Zaber Ibn Abdul Hakim

391

10 Dec 2023

Generating Illustrated Instructions

338

07 Dec 2023

Balance Act: Mitigating Hubness in Cross-Modal Retrieval with Query and Gallery BanksConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Yimu Wang

Xiangru Jian

Bo Xue

264

17 Oct 2023

Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive LearningACM Multimedia (ACM MM), 2023

...

462

20 Sep 2023

Unified Coarse-to-Fine Alignment for Video-Text RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Gedas Bertasius

470

18 Sep 2023

Distraction-free Embeddings for Robust VQA

277

31 Aug 2023

A Preliminary Study of the Intrinsic Relationship between Complexity and AlignmentInternational Conference on Language Resources and Evaluation (LREC), 2023

Fei Huang

322

10 Aug 2023

Wider and Deeper LLM Networks are Fairer LLM Evaluators

Fei Huang

404

120

03 Aug 2023

Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and ModelIEEE Transactions on Image Processing (IEEE TIP), 2023

Peng Wu

Jing Liu

Xiangteng He

Yuxin Peng

Peng Wang

Yanning Zhang

477

24 Jul 2023

No-frills Temporal Video Grounding: Multi-Scale Neighboring Attention and Zoom-in Boundary Detection

Tao Gui

S. Zheng

Qin Jin

289

20 Jul 2023

Hierarchical Matching and Reasoning for Multi-Query Image RetrievalNeural Networks (Neural Netw.), 2023

Xuelong Li

342

26 Jun 2023

Iterative Adversarial Attack on Image-guided Story Ending GenerationIEEE transactions on multimedia (IEEE TMM), 2023

Youze Wang

Wenbo Hu

Richang Hong

282

16 May 2023

Mask to reconstruct: Cooperative Semantics Completion for Video-text RetrievalACM Multimedia (ACM MM), 2023

Han Fang

Zhifei Yang

Xianghao Zang

Chao Ban

Hao Sun

VGen

307

13 May 2023

Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation LearningComputer Vision and Pattern Recognition (CVPR), 2023

315

25 Mar 2023

Aligning Step-by-Step Instructional Diagrams to Video DemonstrationsComputer Vision and Pattern Recognition (CVPR), 2023

Jiahao Zhang

A. Cherian

Yanbin Liu

Yizhak Ben-Shabat

Cristian Rodriguez-Opazo

Stephen Gould

311

24 Mar 2023

Plug-and-Play Regulators for Image-Text MatchingIEEE Transactions on Image Processing (IEEE TIP), 2023

Huchuan Lu

248

23 Mar 2023

CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive LearningComputer Vision and Pattern Recognition (CVPR), 2023

Jianmin Bao

282

22 Mar 2023

CLIP4MC: An RL-Friendly Vision-Language Model for MinecraftEuropean Conference on Computer Vision (ECCV), 2023

288

19 Mar 2023

Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-TrainingComputer Vision and Pattern Recognition (CVPR), 2023

Yang Liu

410

28 Feb 2023

Deep Learning for Video-Text Retrieval: a ReviewInternational Journal of Multimedia Information Retrieval (IJMIR), 2023

258

24 Feb 2023

Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text RetrievalAAAI Conference on Artificial Intelligence (AAAI), 2023

Ying Shan

300

30 Jan 2023

USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text RetrievalIEEE Transactions on Image Processing (IEEE TIP), 2023

Xuelong Li

235

17 Jan 2023

A Survey on Self-supervised Learning: Algorithms, Applications, and Future TrendsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

654

460

13 Jan 2023

What You Say Is What You Show: Visual Narration Detection in Instructional Videos

447

05 Jan 2023

Multi-queue Momentum Contrast for Microvideo-Product RetrievalWeb Search and Data Mining (WSDM), 2022

Wei Ji

228

22 Dec 2022

SimVTP: Simple Video Text Pre-training with Masked Autoencoders

Yue Ma

Tianyu Yang

Yin Shan

Xiu Li

209

07 Dec 2022

Masked Contrastive Pre-Training for Efficient Video-Text Retrieval

214

02 Dec 2022

Normalized Contrastive Learning for Text-Video RetrievalConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

206

30 Nov 2022

Are All Combinations Equal? Combining Textual and Visual Features with Multiple Space Learning for Text-Based Video Retrieval

Damianos Galanopoulos

Vasileios Mezaris

270

21 Nov 2022

ConTra: (Con)text (Tra)nsformer for Cross-Modal Video RetrievalAsian Conference on Computer Vision (ACCV), 2022

A. Fragomeni

Michael Wray

Dima Damen

CLIP ViT

182

09 Oct 2022

Text-Adaptive Multiple Visual Prototype Matching for Video-Text RetrievalNeural Information Processing Systems (NeurIPS), 2022

Chunhua Shen

293

27 Sep 2022

LGDN: Language-Guided Denoising Network for Video-Language ModelingNeural Information Processing Systems (NeurIPS), 2022

Mingyu Ding

402

23 Sep 2022

An Empirical Study of End-to-End Video-Language Transformers with Masked Visual ModelingComputer Vision and Pattern Recognition (CVPR), 2022

Zicheng Liu

775

04 Sep 2022