To Find Where You Talk: Temporal Sentence Localization in Video with Attention Based Location Regression

19 April 2018

Tao Mei

Papers citing "To Find Where You Talk: Temporal Sentence Localization in Video with Attention Based Location Regression"

50 / 59 papers shown

Title
Ask2Loc: Learning to Locate Instructional Visual Answers by Asking Questions Chang Zong Bin Li Shoujun Zhou Jian Wan Lei Zhang 129 0 0 22 Apr 2025
LD-DETR: Loop Decoder DEtection TRansformer for Video Moment Retrieval and Highlight Detection Pengcheng Zhao Zhixian He Fuwei Zhang Shujin Lin Fan Zhou 42 1 0 18 Jan 2025
Reading to Listen at the Cocktail Party: Multi-Modal Speech Separation Akam Rahimi Triantafyllos Afouras Andrew Zisserman 40 28 0 02 Jan 2025
TimeRefine: Temporal Grounding with Time Refining Video LLM Xizi Wang Feng Cheng Ziyang Wang Huiyu Wang Md. Mohaiminul Islam Lorenzo Torresani Mohit Bansal Gedas Bertasius David J. Crandall 109 1 0 12 Dec 2024
AutoTVG: A New Vision-language Pre-training Paradigm for Temporal Video Grounding Xing Zhang Jiaxi Gu Haoyu Zhao Shicong Wang Hang Xu Renjing Pei Songcen Xu Zuxuan Wu Yu-Gang Jiang 40 0 0 11 Jun 2024
Task-Driven Exploration: Decoupling and Inter-Task Feedback for Joint Moment Retrieval and Highlight Detection Jin Yang Ping Wei Huan Li Ziyang Ren 40 8 0 14 Apr 2024
Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding Jingjing Hu Dan Guo Kun Li Zhan Si Xun Yang Xiaojun Chang Meng Wang 59 3 0 21 Mar 2024
Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding Chaolei Tan Jian-Huang Lai Wei-Shi Zheng Jianfang Hu AI4TS 41 5 0 18 Mar 2024
Temporal Sentence Grounding in Streaming Videos Tian Gan Xiao Wang Yan Sun Jianlong Wu Qingpei Guo Liqiang Nie 40 2 0 14 Aug 2023
A Survey on Video Moment Localization Meng Liu Liqiang Nie Yunxiao Wang Meng Wang Yong Rui 27 28 0 13 Jun 2023
Generation-Guided Multi-Level Unified Network for Video Grounding Xingyi Cheng Xiangyu Wu Dong Shen Hezheng Lin Fan Yang 19 0 0 14 Mar 2023
MINOTAUR: Multi-task Video Grounding From Multimodal Queries Raghav Goyal E. Mavroudi Xitong Yang Sainbayar Sukhbaatar Leonid Sigal Matt Feiszli Lorenzo Torresani Du Tran 12 7 0 16 Feb 2023
Hypotheses Tree Building for One-Shot Temporal Sentence Localization Daizong Liu Xiang Fang Pan Zhou Xing Di Weining Lu Yu Cheng 27 19 0 05 Jan 2023
Rethinking the Video Sampling and Reasoning Strategies for Temporal Sentence Grounding Jiahao Zhu Daizong Liu Pan Zhou Xing Di Yu Cheng ... Wenzheng Xu Zichuan Xu Yao Wan Lichao Sun Zeyu Xiong 25 18 0 02 Jan 2023
Visual Answer Localization with Cross-modal Mutual Knowledge Transfer Yixuan Weng Bin Li 24 6 0 26 Oct 2022
Hierarchical Local-Global Transformer for Temporal Sentence Grounding Xiang Fang Daizong Liu Pan Zhou Zichuan Xu Rui Li 12 28 0 31 Aug 2022
Partially Relevant Video Retrieval Jianfeng Dong Xianke Chen Minsong Zhang Xun Yang Shujie Chen Xirong Li Xun Wang 14 39 0 26 Aug 2022
Reducing the Vision and Language Bias for Temporal Sentence Grounding Daizong Liu Xiaoye Qu Wei Hu 12 49 0 27 Jul 2022
Entity-aware and Motion-aware Transformers for Language-driven Action Localization in Videos Shuo Yang Xinxiao Wu 25 15 0 12 May 2022
Contrastive Language-Action Pre-training for Temporal Localization Mengmeng Xu Erhan Gundogdu ⋆⋆ Maksim Bernard Ghanem M. Donoser Loris Bazzani 33 27 0 26 Apr 2022
Video Moment Retrieval from Text Queries via Single Frame Annotation Ran Cui Tianwen Qian Pai Peng E. Daskalaki Jingjing Chen Xiao-Wei Guo Huyang Sun Yu-Gang Jiang 15 35 0 20 Apr 2022
Position-aware Location Regression Network for Temporal Video Grounding Sunoh Kim Kimin Yun J. Choi 22 4 0 12 Apr 2022
TubeDETR: Spatio-Temporal Video Grounding with Transformers Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 28 94 0 30 Mar 2022
Compositional Temporal Grounding with Structured Variational Cross-Graph Correspondence Learning Juncheng Li Junlin Xie Long Qian Linchao Zhu Siliang Tang Fei Wu Yi Yang Yueting Zhuang X. Wang 36 73 0 24 Mar 2022
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach Xiaohan Lan Yitian Yuan Xin Eric Wang Long Chen Zhi Wang Lin Ma Wenwu Zhu CML 21 15 0 10 Mar 2022
Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for Temporal Sentence Grounding Daizong Liu Xiang Fang Wei Hu Pan Zhou 15 37 0 06 Mar 2022
When Did It Happen? Duration-informed Temporal Localization of Narrated Actions in Vlogs Oana Ignat Santiago Castro Yuhang Zhou Jiajun Bao Dandan Shan Rada Mihalcea 18 3 0 16 Feb 2022
Exploring Motion and Appearance Information for Temporal Sentence Grounding Daizong Liu Xiaoye Qu Pan Zhou Yang Liu 19 41 0 03 Jan 2022
SNEAK: Synonymous Sentences-Aware Adversarial Attack on Natural Language Video Localization Wenbo Gou Wen Shi Jian Lou Lijie Huang Pan Zhou Ruixuan Li AAML 23 2 0 08 Dec 2021
Towards Debiasing Temporal Sentence Grounding in Video Hao Zhang Aixin Sun Wei Jing Joey Tianyi Zhou 48 16 0 08 Nov 2021
Hierarchical Deep Residual Reasoning for Temporal Moment Localization Ziyang Ma Xianjing Han Xuemeng Song Yiran Cui Liqiang Nie 13 9 0 31 Oct 2021
Multi-Modal Interaction Graph Convolutional Network for Temporal Language Localization in Videos Zongmeng Zhang Xianjing Han Xuemeng Song Yan Yan Liqiang Nie 33 36 0 12 Oct 2021
Self-supervised Learning for Semi-supervised Temporal Language Grounding Fan Luo Shaoxiang Chen Jingjing Chen Zuxuan Wu Yu-Gang Jiang VLM 49 11 0 23 Sep 2021
End-to-End Dense Video Grounding via Parallel Regression Fengyuan Shi Weilin Huang Limin Wang 37 10 0 23 Sep 2021
Natural Language Video Localization with Learnable Moment Proposals Shaoning Xiao Long Chen Jian Shao Yueting Zhuang Jun Xiao 9 43 0 22 Sep 2021
A Survey on Temporal Sentence Grounding in Videos Xiaohan Lan Yitian Yuan Xin Eric Wang Zhi Wang Wenwu Zhu 27 47 0 16 Sep 2021
Progressively Guide to Attend: An Iterative Alignment Framework for Temporal Sentence Grounding Daizong Liu Xiaoye Qu Pan Zhou 16 46 0 14 Sep 2021
Adaptive Proposal Generation Network for Temporal Sentence Localization in Videos Daizong Liu Xiaoye Qu Jianfeng Dong Pan Zhou 20 54 0 14 Sep 2021
Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding Zhenzhi Wang Limin Wang Tao Wu Tianhao Li Gangshan Wu AI4TS 28 116 0 10 Sep 2021
EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery Generation Yanjun Gao Lulu Liu Jason Wang Xin Chen Huayan Wang Rui Zhang 25 1 0 10 Sep 2021
Support-Set Based Cross-Supervision for Video Grounding Xinpeng Ding N. Wang Shiwei Zhang De-Chun Cheng Xiaomeng Li Ziyuan Huang Mingqian Tang Xinbo Gao 33 42 0 24 Aug 2021
End-to-end Multi-modal Video Temporal Grounding Yi-Wen Chen Yi-Hsuan Tsai Ming-Hsuan Yang 11 51 0 12 Jul 2021
Weakly Supervised Temporal Adjacent Network for Language Grounding Yuechen Wang Jiajun Deng Wen-gang Zhou Houqiang Li 24 67 0 30 Jun 2021
Interventional Video Grounding with Dual Contrastive Learning Guoshun Nan Rui Qiao Yao Xiao Jun Liu Sicong Leng H. Zhang Wei Lu 20 144 0 21 Jun 2021
Parallel Attention Network with Sequence Matching for Video Grounding Hao Zhang Aixin Sun Wei Jing Liangli Zhen Joey Tianyi Zhou Rick Siow Mong Goh 16 40 0 18 May 2021
A Survey on Natural Language Video Localization Xinfang Liu Xiushan Nie Zhifang Tan Jie Guo Yilong Yin 26 7 0 01 Apr 2021
Decoupled Spatial Temporal Graphs for Generic Visual Grounding Qi Feng Yunchao Wei Mingming Cheng Yi Yang 24 5 0 18 Mar 2021
Multi-Scale 2D Temporal Adjacent Networks for Moment Localization with Natural Language Songyang Zhang Houwen Peng Jianlong Fu Yijuan Lu Jiebo Luo 19 51 0 04 Dec 2020
VLG-Net: Video-Language Graph Matching Network for Video Grounding Mattia Soldan Mengmeng Xu Sisi Qu Jesper N. Tegnér Bernard Ghanem 33 69 0 19 Nov 2020
DORi: Discovering Object Relationship for Moment Localization of a Natural-Language Query in Video Cristian Rodriguez-Opazo Edison Marrese-Taylor Basura Fernando Hongdong Li Stephen Gould 129 11 0 13 Oct 2020