Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text
Retrieval

Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text Retrieval

30 January 2023

Ying Shan

Papers citing "Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text Retrieval"

13 / 13 papers shown

Title
Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval A. Fragomeni Dima Damen Michael Wray 33 0 0 02 Apr 2025
TokenBinder: Text-Video Retrieval with One-to-Many Alignment Paradigm Bingqing Zhang Zhuo Cao Heming Du Xin Yu Xue Li Jiajun Liu Sen Wang VGen 16 0 0 30 Sep 2024
ASR-enhanced Multimodal Representation Learning for Cross-Domain Product Retrieval Ruixiang Zhao Jian Jia Yan Li Xuehan Bai Quan Chen Han Li Peng Jiang Xirong Li 28 0 0 06 Aug 2024
Learning on Multimodal Graphs: A Survey Ciyuan Peng Jiayuan He Feng Xia 17 6 0 07 Feb 2024
An Empirical Study of Frame Selection for Text-to-Video Retrieval Mengxia Wu Min Cao Yang Bai Ziyin Zeng Chen Chen Liqiang Nie Min Zhang 12 3 0 01 Nov 2023
DiffusionRet: Generative Text-Video Retrieval with Diffusion Model Peng Jin Hao Li Ze-Long Cheng Kehan Li Xiang Ji Chang-rui Liu Li-ming Yuan Jie Chen DiffM VGen 16 52 0 17 Mar 2023
Video-Text Retrieval by Supervised Sparse Multi-Grained Learning Yimu Wang Peng Shi 6 5 0 19 Feb 2023
UATVR: Uncertainty-Adaptive Text-Video Retrieval Bo Fang Wenhao Wu Chang-rui Liu Yu Zhou Yuxin Song Weiping Wang Min Yang Xiang Ji Jingdong Wang 17 45 0 16 Jan 2023
T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval Xiaohan Wang Linchao Zhu Yi Yang 143 166 0 20 Apr 2021
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 303 771 0 18 Apr 2021
A Straightforward Framework For Video Retrieval Using CLIP Jesús Andrés Portillo-Quintero J. C. Ortíz-Bayliss Hugo Terashima-Marín CLIP 302 116 0 24 Feb 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 278 1,939 0 09 Feb 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 401 594 0 21 Jul 2020