Dual Encoding for Zero-Example Video Retrieval

17 September 2018

Papers citing "Dual Encoding for Zero-Example Video Retrieval"

27 / 27 papers shown

Title
Weakly Supervised Temporal Sentence Grounding via Positive Sample Mining Lu Dong H. Zhang Hongjie Zhang Y. Huang Z. Ling Yu Qiao Limin Wang Y. Wang AI4TS 26 0 0 10 May 2025
Exploiting Inter-Sample Correlation and Intra-Sample Redundancy for Partially Relevant Video Retrieval Junlong Ren Gangjian Zhang Y. Hu Jian Shu H. Wang 29 0 0 28 Apr 2025
Rethinking the Video Sampling and Reasoning Strategies for Temporal Sentence Grounding Jiahao Zhu Daizong Liu Pan Zhou Xing Di Yu Cheng ... Wenzheng Xu Zichuan Xu Yao Wan Lichao Sun Zeyu Xiong 25 18 0 02 Jan 2023
Unified Loss of Pair Similarity Optimization for Vision-Language Retrieval Zheng Li Caili Guo Xin Eric Wang Zerun Feng Jenq-Neng Hwang Zhongtian Du VLM 16 2 0 28 Sep 2022
Video Question Answering with Iterative Video-Text Co-Tokenization A. Piergiovanni K. Morton Weicheng Kuo Michael S. Ryoo A. Angelova 16 17 0 01 Aug 2022
X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval Yiwei Ma Guohai Xu Xiaoshuai Sun Ming Yan Ji Zhang Rongrong Ji CLIP VLM 10 267 0 15 Jul 2022
(Un)likelihood Training for Interpretable Embedding Jiaxin Wu Chong-Wah Ngo W. Chan Zhijian Hou 12 2 0 01 Jul 2022
Exploiting Semantic Role Contextualized Video Features for Multi-Instance Text-Video Retrieval EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022 Burak Satar Hongyuan Zhu Hanwang Zhang J. Lim 16 3 0 29 Jun 2022
Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language Andy Zeng Maria Attarian Brian Ichter K. Choromanski Adrian S. Wong ... Michael S. Ryoo Vikas Sindhwani Johnny Lee Vincent Vanhoucke Peter R. Florence ReLM LRM 13 569 0 01 Apr 2022
How Do You Do It? Fine-Grained Action Understanding with Pseudo-Adverbs Hazel Doughty Cees G. M. Snoek 20 19 0 23 Mar 2022
Look for the Change: Learning Object States and State-Modifying Actions from Untrimmed Web Videos Tomávs Souvcek Jean-Baptiste Alayrac Antoine Miech Ivan Laptev Josef Sivic 19 32 0 22 Mar 2022
MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One More Step Towards Generalization Alexander Kunitsyn M. Kalashnikov Maksim Dzabraev Andrei Ivaniuta 28 16 0 14 Mar 2022
BiC-Net: Learning Efficient Spatio-Temporal Relation for Text-Video Retrieval Ning Han Jingjing Chen Chuhao Shi Yawen Zeng Guangyi Xiao Hao Chen 22 10 0 29 Oct 2021
Adaptive Proposal Generation Network for Temporal Sentence Localization in Videos Daizong Liu Xiaoye Qu Jianfeng Dong Pan Zhou 17 54 0 14 Sep 2021
HANet: Hierarchical Alignment Networks for Video-Text Retrieval Peng Wu Xiangteng He Mingqian Tang Yiliang Lv Jing Liu 23 52 0 26 Jul 2021
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP Han Fang Pengfei Xiong Luhui Xu Yu Chen CLIP VLM 13 291 0 21 Jun 2021
MDMMT: Multidomain Multimodal Transformer for Video Retrieval Maksim Dzabraev M. Kalashnikov Stepan Alekseevich Komkov Aleksandr Petiushko 13 128 0 19 Mar 2021
Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Models Po-Yao (Bernie) Huang Mandela Patrick Junjie Hu Graham Neubig Florian Metze Alexander G. Hauptmann MLLM VLM 19 56 0 16 Mar 2021
VLG-Net: Video-Language Graph Matching Network for Video Grounding Mattia Soldan Mengmeng Xu Sisi Qu Jesper N. Tegnér Bernard Ghanem 25 69 0 19 Nov 2020
COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning Simon Ging Mohammadreza Zolfaghari Hamed Pirsiavash Thomas Brox ViT CLIP 13 168 0 01 Nov 2020
Dual Encoding for Video Retrieval by Text Jianfeng Dong Xirong Li Chaoxi Xu Xun Yang Gang Yang Xun Wang Meng Wang 8 2 0 10 Sep 2020
Self-Supervised MultiModal Versatile Networks Jean-Baptiste Alayrac Adrià Recasens R. Schneider Relja Arandjelović Jason Ramapuram J. Fauw Lucas Smaira Sander Dieleman Andrew Zisserman SSL 40 371 0 29 Jun 2020
Exploiting Visual Semantic Reasoning for Video-Text Retrieval Zerun Feng Zhimin Zeng Caili Guo Zheng Li 14 34 0 16 Jun 2020
Set-Constrained Viterbi for Set-Supervised Action Segmentation Jun Li S. Todorovic 12 50 0 27 Feb 2020
Action Modifiers: Learning from Adverbs in Instructional Videos Hazel Doughty Ivan Laptev W. Mayol-Cuevas Dima Damen 10 30 0 13 Dec 2019
A Graph-Based Framework to Bridge Movies and Synopses Yu Xiong Chengyi Zhang Lingfeng Guo Hang Zhou Bolei Zhou Dahua Lin 22 60 0 24 Oct 2019
Convolutional Neural Networks for Sentence Classification Yoon Kim AILaw VLM 250 13,360 0 25 Aug 2014