v1v2v3 (latest)

Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss

9 September 2021

Fan Yang

Papers citing "Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss"

50 / 103 papers shown

Table Comprehension in Building Codes using Vision Language Models and Domain-Specific Fine-Tuning

446

23 Nov 2025

Repeating Words for Video-Language Retrieval with Coarse-to-Fine Objectives

197

20 Aug 2025

T2VParser: Adaptive Decomposition Tokens for Partial Alignment in Text to Video Retrieval

223

28 Jul 2025

DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text RetrievalComputer Vision and Pattern Recognition (CVPR), 2025

237

10 Jun 2025

Leveraging Auxiliary Information in Text-to-Video Retrieval: A Review

A. Fragomeni

Dima Damen

Michael Wray

268

29 May 2025

Learning Audio-guided Video Representation with Gated Attention for Video-Text RetrievalComputer Vision and Pattern Recognition (CVPR), 2025

347

03 Apr 2025

Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval

A. Fragomeni

Dima Damen

Michael Wray

609

02 Apr 2025

Video-ColBERT: Contextualized Late Interaction for Text-to-Video RetrievalComputer Vision and Pattern Recognition (CVPR), 2025

452

24 Mar 2025

Stitch-a-Demo: Video Demonstrations from Multistep Descriptions

355

18 Mar 2025

NeighborRetr: Balancing Hub Centrality in Cross-Modal RetrievalComputer Vision and Pattern Recognition (CVPR), 2025

241

13 Mar 2025

LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents

1.3K

13 Mar 2025

Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level CaptionsComputer Vision and Pattern Recognition (CVPR), 2025

719

07 Mar 2025

Language-based Audio Retrieval with Co-Attention Networks

182

31 Dec 2024

GIMS: Image Matching System Based on Adaptive Graph Construction and Graph Neural NetworkNeural Networks (NN), 2024

346

24 Dec 2024

Decomposing Relationship from 1-to-N into N 1-to-1 for Text-Video RetrievalAAAI Conference on Artificial Intelligence (AAAI), 2024

Jian Xiao

Zhenzhen Hu

Jia Li

Richang Hong

180

09 Oct 2024

TokenBinder: Text-Video Retrieval with One-to-Many Alignment ParadigmIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

Xin Yu

Jiajun Liu

Sen Wang

VGen

278

30 Sep 2024

T2VIndexer: A Generative Video Indexer for Efficient Text-Video RetrievalACM Multimedia (MM), 2024

Yili Li

Jing Yu

Gang Xiong

270

21 Aug 2024

TDS-CLIP: Temporal Difference Side Network for Efficient VideoAction Recognition

215

20 Aug 2024

Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment

Hao Fei

Meishan Zhang

310

27 Jun 2024

Multi-Granularity and Multi-modal Feature Interaction Approach for Text Video Retrieval

174

21 Jun 2024

RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter

Xiaodan Liang

336

29 May 2024

An Empirical Study of Excitation and Aggregation Design Adaptions in CLIP4Clip for Video-Text Retrieval

301

25 May 2024

Unified Video-Language Pre-training with Synchronized Audio

Shentong Mo

Haofan Wang

Huaxia Li

Xu Tang

299

12 May 2024

SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval

Ming Yang

434

22 Apr 2024

Anchor-aware Deep Metric Learning for Audio-visual Retrieval

241

21 Apr 2024

ProTA: Probabilistic Token Aggregation for Text-Video Retrieval

Han Fang

Chao Ban

Zhongjiang He

Hao Sun

396

18 Apr 2024

Improving Continuous Sign Language Recognition with Adapted Image Models

279

12 Apr 2024

Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval

477

26 Mar 2024

VidLA: Video-Language Alignment at ScaleComputer Vision and Pattern Recognition (CVPR), 2024

Mamshad Nayeem Rizve

Fan Fei

Jayakrishnan Unnikrishnan

Mubarak Shah

268

21 Mar 2024

M2-RAAP: A Multi-Modal Recipe for Advancing Adaptation-based Pre-training towards Effective and Efficient Zero-shot Video-text Retrieval

Ming Yang

291

31 Jan 2024

Detours for Navigating Instructional VideosComputer Vision and Pattern Recognition (CVPR), 2024

629

03 Jan 2024

COMMA: Co-Articulated Multi-Modal LearningAAAI Conference on Artificial Intelligence (AAAI), 2023

Chi-Man Pun

301

30 Dec 2023

D3Former: Jointly Learning Repeatable Dense Detectors and Feature-enhanced Descriptors via Saliency-guided Transformer

211

20 Dec 2023

WAVER: Writing-style Agnostic Text-Video Retrieval via Distilling Vision-Language Models Through Open-Vocabulary KnowledgeIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Huy Le

Tung Kieu

Anh Nguyen

Ngan Le

VGen

351

15 Dec 2023

RTQ: Rethinking Video-language Understanding Based on Image-text ModelACM Multimedia (ACM MM), 2023

375

01 Dec 2023

Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning

351

27 Nov 2023

Mug-STAN: Adapting Image-Language Pretrained Models for General Video Understanding

308

25 Nov 2023

Sinkhorn Transformations for Single-Query Postprocessing in Text-Video RetrievalAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2023

241

14 Nov 2023

An Empirical Study of Frame Selection for Text-to-Video RetrievalConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Min Zhang

347

01 Nov 2023

Harvest Video Foundation Models via Efficient Post-Pretraining

Yu Qiao

Ping Luo

CLIP VLM VGen

401

30 Oct 2023

InvGC: Robust Cross-Modal Retrieval by Inverse Graph Convolution

Xiangru Jian

Yimu Wang

330

20 Oct 2023

Balance Act: Mitigating Hubness in Cross-Modal Retrieval with Query and Gallery BanksConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Yimu Wang

Xiangru Jian

Bo Xue

255

17 Oct 2023

OAAFormer: Robust and Efficient Point Cloud Registration Through Overlapping-Aware Attention in Transformer

Wenping Wang

260

15 Oct 2023

Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive LearningACM Multimedia (ACM MM), 2023

...

449

20 Sep 2023

Unified Coarse-to-Fine Alignment for Video-Text RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Gedas Bertasius

463

18 Sep 2023

Disentangling Spatial and Temporal Learning for Efficient Image-to-Video Transfer LearningIEEE International Conference on Computer Vision (ICCV), 2023

255

14 Sep 2023

DePT: Decoupled Prompt TuningComputer Vision and Pattern Recognition (CVPR), 2023

Lianli Gao

Jingkuan Song

323

14 Sep 2023

Multi-event Video-Text RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Gengyuan Zhang

Jisen Ren

Jindong Gu

Volker Tresp

240

22 Aug 2023

Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature AlignmentIEEE International Conference on Computer Vision (ICCV), 2023

342

24 Jul 2023

Video-Mined Task Graphs for Keystep Recognition in Instructional VideosNeural Information Processing Systems (NeurIPS), 2023

Kumar Ashutosh

Santhosh Kumar Ramakrishnan

Triantafyllos Afouras

Kristen Grauman

359

17 Jul 2023