MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization

MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One More Step Towards Generalization

14 March 2022

Alexander Kunitsyn

Maksim Dzabraev

Andrei Ivaniuta

Papers citing "MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One More Step Towards Generalization"

14 / 14 papers shown

Title
Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval A. Fragomeni Dima Damen Michael Wray 33 0 0 02 Apr 2025
Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset Yuchen Yang Yingxuan Duan VGen 23 0 0 19 Jun 2024
Encoding and Decoding Narratives: Datafication and Alternative Access Models for Audiovisual Archives Yuchen Yang 19 1 0 10 Oct 2023
Write What You Want: Applying Text-to-video Retrieval to Audiovisual Archives Yuchen Yang VGen 11 7 0 09 Oct 2023
Meta-Personalizing Vision-Language Models to Find Named Instances in Video Chun-Hsiao Yeh Bryan C. Russell Josef Sivic Fabian Caba Heilbron Simon Jenni VLM MLLM 44 9 0 16 Jun 2023
Deep Learning for Video-Text Retrieval: a Review Cunjuan Zhu Qi Jia Wei-Neng Chen Yanming Guo Yu Liu 19 14 0 24 Feb 2023
STOA-VLP: Spatial-Temporal Modeling of Object and Action for Video-Language Pre-training Weihong Zhong Mao Zheng Duyu Tang Xuan Luo Heng Gong Xiaocheng Feng Bing Qin 22 8 0 20 Feb 2023
Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative Latent Attention Zineng Tang Jaemin Cho Jie Lei Mohit Bansal VLM 13 9 0 21 Nov 2022
M2HF: Multi-level Multi-modal Hybrid Fusion for Text-Video Retrieval Shuo Liu Weize Quan Mingyuan Zhou Sihong Chen Jian Kang Zhenlan Zhao Chen Chen Dong-Ming Yan 8 0 0 16 Aug 2022
Clover: Towards A Unified Video-Language Alignment and Fusion Model Jingjia Huang Yinan Li Jiashi Feng Xinglong Wu Xiaoshuai Sun Rongrong Ji VLM 19 46 0 16 Jul 2022
Tencent Text-Video Retrieval: Hierarchical Cross-Modal Interactions with Multi-Level Representations Jie Jiang Shaobo Min Weijie Kong Dihong Gong Hongfa Wang Zhifeng Li Wei Liu VLM 18 17 0 07 Apr 2022
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 309 771 0 18 Apr 2021
A Straightforward Framework For Video Retrieval Using CLIP Jesús Andrés Portillo-Quintero J. C. Ortíz-Bayliss Hugo Terashima-Marín CLIP 316 116 0 24 Feb 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 410 594 0 21 Jul 2020