A Survey on Video Moment Localization

13 June 2023

Meng Wang

Papers citing "A Survey on Video Moment Localization"

20 / 20 papers shown

Title
F $^3$ Set: Towards Analyzing Fast, Frequent, and Fine-grained Events from Videos Zhaoyu Liu Kan Jiang Murong Ma Zhé Hóu Yun Lin J. Dong 35 0 0 11 Apr 2025
TIME: Temporal-sensitive Multi-dimensional Instruction Tuning and Benchmarking for Video-LLMs Yunxiao Wang Meng Liu Rui Shao Haoyu Zhang Bin Wen Fan Yang Tingting Gao Di Zhang Liqiang Nie 62 1 0 13 Mar 2025
Human Stone Toolmaking Action Grammar (HSTAG): A Challenging Benchmark for Fine-grained Motor Behavior Recognition Cheng Liu Xuyang Yan Zekun Zhang Cheng Ding Tianhao Zhao Shaya Jannati Cynthia Martinez Dietrich Stout 28 1 0 10 Oct 2024
Localizing Events in Videos with Multimodal Queries Gengyuan Zhang Mang Ling Ada Fok Yan Xia Yansong Tang Daniel Cremers Philip H. S. Torr Volker Tresp Jindong Gu 24 1 0 14 Jun 2024
2DP-2MRC: 2-Dimensional Pointer-based Machine Reading Comprehension Method for Multimodal Moment Retrieval Jiajun He T. Toda 24 0 0 10 Jun 2024
A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future Directions Daizong Liu Yang Liu Wencan Huang Wei Hu LM&Ro 29 9 0 09 Jun 2024
SketchQL Demonstration: Zero-shot Video Moment Querying with Sketches Renzhi Wu Pramod Chunduri Dristi J Shah Ashmitha Julius Aravind Ali Payani Xu Chu Joy Arulraj Kexin Rong 22 1 0 28 May 2024
Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR Zhenyang Li Yangyang Guo Ke-Jyun Wang Xiaolin Chen Liqiang Nie Mohan S. Kankanhalli LRM 19 7 0 27 May 2024
Towards Weakly Supervised Text-to-Audio Grounding Xuenan Xu Ziyang Ma Mengyue Wu Kai Yu AI4TS 25 9 0 05 Jan 2024
Correlation-Guided Query-Dependency Calibration for Video Temporal Grounding WonJun Moon Sangeek Hyun Subeen Lee Jae-Pil Heo 19 4 0 15 Nov 2023
Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation Protocols Iqra Qasim Alexander Horsch Dilip K. Prasad 17 5 0 05 Nov 2023
Towards Surveillance Video-and-Language Understanding: New Dataset, Baselines, and Challenges Tongtong Yuan Xuange Zhang Kun Liu Bo Liu Chen Chen Jian Jin Zhenzhen Jiao AI4TS 19 13 0 25 Sep 2023
ViGT: Proposal-free Video Grounding with Learnable Token in Transformer Kun Li Dan Guo Meng Wang ViT 8 36 0 11 Aug 2023
Sample Less, Learn More: Efficient Action Recognition via Frame Feature Restoration Harry Cheng Yangyang Guo Liqiang Nie Zhiyong Cheng Mohan S. Kankanhalli 33 7 0 27 Jul 2023
MH-DETR: Video Moment and Highlight Detection with Cross-modal Transformer Yifang Xu Yunzhuo Sun Yang Li Yilei Shi Xiaoxia Zhu S. Du ViT 35 33 0 29 Apr 2023
FedVMR: A New Federated Learning method for Video Moment Retrieval Yan Wang Xin Luo Zhen-Duo Chen P. Zhang Meng Liu Xin-Shun Xu FedML 21 2 0 28 Oct 2022
Temporal Sentence Grounding in Videos: A Survey and Future Directions Hao Zhang Aixin Sun Wei Jing Joey Tianyi Zhou 3DGS 34 38 0 20 Jan 2022
End-to-End Dense Video Grounding via Parallel Regression Fengyuan Shi Weilin Huang Limin Wang 35 10 0 23 Sep 2021
Zero-shot Natural Language Video Localization Jinwoo Nam Daechul Ahn Dongyeop Kang S. Ha Jonghyun Choi 87 43 0 29 Aug 2021
Natural Language Video Localization: A Revisit in Span-based Question Answering Framework Hao Zhang Aixin Sun Wei Jing Liangli Zhen Joey Tianyi Zhou Rick Siow Mong Goh 111 84 0 26 Feb 2021