Weakly Supervised Video Moment Retrieval From Text Queries

5 April 2019

Papers citing "Weakly Supervised Video Moment Retrieval From Text Queries"

35 / 35 papers shown

Title
Weakly Supervised Temporal Sentence Grounding via Positive Sample Mining Lu Dong H. Zhang Hongjie Zhang Y. Huang Z. Ling Yu Qiao Limin Wang Y. Wang AI4TS 26 0 0 10 May 2025
AutoTVG: A New Vision-language Pre-training Paradigm for Temporal Video Grounding Xing Zhang Jiaxi Gu Haoyu Zhao Shicong Wang Hang Xu Renjing Pei Songcen Xu Zuxuan Wu Yu-Gang Jiang 38 0 0 11 Jun 2024
Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding Chaolei Tan Jian-Huang Lai Wei-Shi Zheng Jianfang Hu AI4TS 36 5 0 18 Mar 2024
EtC: Temporal Boundary Expand then Clarify for Weakly Supervised Video Grounding with Multimodal Large Language Model Guozhang Li Xinpeng Ding De-Chun Cheng Jie Li Nannan Wang Xinbo Gao 32 1 0 05 Dec 2023
Query by Activity Video in the Wild Tao Hu William Thong Pascal Mettes Cees G. M. Snoek 22 0 0 23 Nov 2023
Temporally Aligning Long Audio Interviews with Questions: A Case Study in Multimodal Data Integration Piyush Singh Pasi Karthikeya Battepati P. Jyothi Ganesh Ramakrishnan T. Mahapatra Manoj Singh 46 0 0 10 Oct 2023
SCANet: Scene Complexity Aware Network for Weakly-Supervised Video Moment Retrieval Sunjae Yoon Gwanhyeong Koo Dahyun Kim Changdong Yoo 21 12 0 08 Oct 2023
Contrastive Learning-Based Audio to Lyrics Alignment for Multiple Languages Simon Durand Daniel Stoller Sebastian Ewert 26 12 0 13 Jun 2023
A Survey on Video Moment Localization Meng Liu Liqiang Nie Yunxiao Wang Meng Wang Yong Rui 27 28 0 13 Jun 2023
Focusing On Targets For Improving Weakly Supervised Visual Grounding V. Pham Nao Mishima ObjD 21 1 0 22 Feb 2023
MINOTAUR: Multi-task Video Grounding From Multimodal Queries Raghav Goyal E. Mavroudi Xitong Yang Sainbayar Sukhbaatar Leonid Sigal Matt Feiszli Lorenzo Torresani Du Tran 12 7 0 16 Feb 2023
Hypotheses Tree Building for One-Shot Temporal Sentence Localization Daizong Liu Xiang Fang Pan Zhou Xing Di Weining Lu Yu Cheng 22 19 0 05 Jan 2023
Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval Minjoon Jung Seongho Choi Joo-Kyung Kim Jin-Hwa Kim Byoung-Tak Zhang 29 7 0 23 Oct 2022
Locate before Answering: Answer Guided Question Localization for Video Question Answering Tianwen Qian Ran Cui Jingjing Chen Pai Peng Xiao-Wei Guo Yu-Gang Jiang 18 17 0 05 Oct 2022
Weakly-Supervised Action Detection Guided by Audio Narration Keren Ye Adriana Kovashka 22 0 0 12 May 2022
Tragedy Plus Time: Capturing Unintended Human Activities from Weakly-labeled Videos Arnav Chakravarthy Zhiyuan Fang Yezhou Yang 21 2 0 28 Apr 2022
Video Moment Retrieval from Text Queries via Single Frame Annotation Ran Cui Tianwen Qian Pai Peng E. Daskalaki Jingjing Chen Xiao-Wei Guo Huyang Sun Yu-Gang Jiang 15 35 0 20 Apr 2022
TubeDETR: Spatio-Temporal Video Grounding with Transformers Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 28 94 0 30 Mar 2022
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach Xiaohan Lan Yitian Yuan Xin Eric Wang Long Chen Zhi Wang Lin Ma Wenwu Zhu CML 19 15 0 10 Mar 2022
Sign Language Video Retrieval with Free-Form Textual Queries A. Duarte Samuel Albanie Xavier Giró-i-Nieto Gül Varol SLR 29 29 0 07 Jan 2022
Injecting Semantic Concepts into End-to-End Image Captioning Zhiyuan Fang Jianfeng Wang Xiaowei Hu Lin Liang Zhe Gan Lijuan Wang Yezhou Yang Zicheng Liu ViT VLM 19 86 0 09 Dec 2021
Towards Debiasing Temporal Sentence Grounding in Video Hao Zhang Aixin Sun Wei Jing Joey Tianyi Zhou 48 16 0 08 Nov 2021
Multi-Modal Interaction Graph Convolutional Network for Temporal Language Localization in Videos Zongmeng Zhang Xianjing Han Xuemeng Song Yan Yan Liqiang Nie 33 36 0 12 Oct 2021
A Survey on Temporal Sentence Grounding in Videos Xiaohan Lan Yitian Yuan Xin Eric Wang Zhi Wang Wenwu Zhu 27 47 0 16 Sep 2021
Progressively Guide to Attend: An Iterative Alignment Framework for Temporal Sentence Grounding Daizong Liu Xiaoye Qu Pan Zhou 8 46 0 14 Sep 2021
Weakly Supervised Relative Spatial Reasoning for Visual Question Answering Pratyay Banerjee Tejas Gokhale Yezhou Yang Chitta Baral LRM 30 18 0 04 Sep 2021
Zero-shot Natural Language Video Localization Jinwoo Nam Daechul Ahn Dongyeop Kang S. Ha Jonghyun Choi 89 43 0 29 Aug 2021
Cross-Sentence Temporal and Semantic Relations in Video Activity Localisation Jiabo Huang Yang Liu S. Gong Hailin Jin 24 61 0 23 Jul 2021
Weakly Supervised Temporal Adjacent Network for Language Grounding Yuechen Wang Jiajun Deng Wen-gang Zhou Houqiang Li 18 67 0 30 Jun 2021
Interventional Video Grounding with Dual Contrastive Learning Guoshun Nan Rui Qiao Yao Xiao Jun Liu Sicong Leng H. Zhang Wei Lu 16 144 0 21 Jun 2021
Parallel Attention Network with Sequence Matching for Video Grounding Hao Zhang Aixin Sun Wei Jing Liangli Zhen Joey Tianyi Zhou Rick Siow Mong Goh 16 40 0 18 May 2021
A Survey on Natural Language Video Localization Xinfang Liu Xiushan Nie Zhifang Tan Jie Guo Yilong Yin 20 7 0 01 Apr 2021
Jointly Cross- and Self-Modal Graph Attention Network for Query-Based Moment Localization Daizong Liu Xiaoye Qu Xiao-Yang Liu Jianfeng Dong Pan Zhou Zichuan Xu 21 129 0 04 Aug 2020
Action Modifiers: Learning from Adverbs in Instructional Videos Hazel Doughty Ivan Laptev W. Mayol-Cuevas Dima Damen 10 30 0 13 Dec 2019
LoGAN: Latent Graph Co-Attention Network for Weakly-Supervised Video Moment Retrieval Reuben Tan Huijuan Xu Kate Saenko Bryan A. Plummer 15 67 0 27 Sep 2019