Sinkhorn Transformations for Single-Query Postprocessing in Text-Video Retrieval

14 November 2023

Papers citing "Sinkhorn Transformations for Single-Query Postprocessing in Text-Video Retrieval"

6 / 6 papers shown

Title
EdiT5: Semi-Autoregressive Text-Editing with T5 Warm-Start Jonathan Mallinson Jakub Adamek Eric Malmi Aliaksei Severyn KELM 83 42 0 24 May 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 380 4,010 0 28 Jan 2022
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding Hu Xu Gargi Ghosh Po-Yao (Bernie) Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Florian Metze Luke Zettlemoyer Christoph Feichtenhofer CLIP VLM 239 554 0 28 Sep 2021
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 298 771 0 18 Apr 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 272 1,939 0 09 Feb 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 396 532 0 21 Jul 2020