LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval

11 July 2022

Papers citing "LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval"

8 / 8 papers shown

Title
Learning Implicit Entity-object Relations by Bidirectional Generative Alignment for Multimodal NER Feng Chen Jiajia Liu Kaixiang Ji Wang Ren Jian Wang Jingdong Wang 11 8 0 03 Aug 2023
CLIP-Driven Fine-grained Text-Image Person Re-identification Shuanglin Yan Neng Dong Liyan Zhang Jinhui Tang 6 86 0 19 Oct 2022
EfficientCLIP: Efficient Cross-Modal Pre-training by Ensemble Confident Learning and Language Modeling Jue Wang Haofan Wang Jincan Deng Weijia Wu Debing Zhang VLM CLIP 48 18 0 10 Sep 2021
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 298 771 0 18 Apr 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 845 0 17 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 2,875 0 11 Feb 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 272 1,939 0 09 Feb 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 396 532 0 21 Jul 2020