v1v2 (latest)

A Survey on Temporal Sentence Grounding in Videos

16 September 2021

Papers citing "A Survey on Temporal Sentence Grounding in Videos"

26 / 26 papers shown

Affordance-First Decomposition for Continual Learning in Video-Language Understanding

223

30 Nov 2025

A Survey on Video Temporal Grounding with Multimodal Large Language ModelIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

174

07 Aug 2025

SD-VSum: A Method and Dataset for Script-Driven Video Summarization

Manolis Mylonas

Evlampios Apostolidis

Vasileios Mezaris

452

06 May 2025

Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization

271

22 Mar 2025

Towards Visual Grounding: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

1.1K

28 Dec 2024

Learning to Unify Audio, Visual and Text for Audio-Enhanced Multilingual Visual Answer Localization

Zhibin Wen

Bin Li

256

05 Nov 2024

VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video UnderstandingNeural Information Processing Systems (NeurIPS), 2024

381

11 Oct 2024

UAL-Bench: The First Comprehensive Unusual Activity Localization BenchmarkIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

297

02 Oct 2024

A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future DirectionsIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2024

Wei Hu

419

09 Jun 2024

Video sentence grounding with temporally global textual knowledge

Yi Wang

320

21 Apr 2024

Grounding-Prompter: Prompting LLM with Multimodal Information for Temporal Sentence Grounding in Long Videos

271

28 Dec 2023

LLM4VG: Large Language Models Evaluation for Video Grounding

437

21 Dec 2023

Cross-modal Contrastive Learning with Asymmetric Co-attention Network for Video Moment Retrieval

315

12 Dec 2023

Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation ProtocolsACM Computing Surveys (ACM Comput. Surv.), 2023

Iqra Qasim

Alexander Horsch

Dilip K. Prasad

286

05 Nov 2023

Towards Surveillance Video-and-Language Understanding: New Dataset, Baselines, and ChallengesComputer Vision and Pattern Recognition (CVPR), 2023

379

25 Sep 2023

Temporal Sentence Grounding in Streaming VideosACM Multimedia (ACM MM), 2023

300

14 Aug 2023

Counterfactual Cross-modality Reasoning for Weakly Supervised Video Moment LocalizationACM Multimedia (ACM MM), 2023

Zezhong Lv

Fuchun Sun

Ji-Rong Wen

300

10 Aug 2023

Transform-Equivariant Consistency Learning for Temporal Sentence Grounding

Weining Lu

327

06 May 2023

Text-Visual Prompting for Efficient 2D Temporal Video GroundingComputer Vision and Pattern Recognition (CVPR), 2023

388

09 Mar 2023

A Simple Transformer-Based Model for Ego4D Natural Language Queries Challenge

Sicheng Mo

Fangzhou Mu

Yin Li

165

16 Nov 2022

FedVMR: A New Federated Learning method for Video Moment RetrievalIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

225

28 Oct 2022

Learning to Locate Visual Answer in Video Corpus Using QuestionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

474

11 Oct 2022

Towards Visual-Prompt Temporal Answering Grounding in Medical Instructional VideoIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

811

13 Mar 2022

Temporal Sentence Grounding in Videos: A Survey and Future DirectionsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

470

20 Jan 2022

MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions

Mattia Soldan

Alejandro Pardo

Juan Carlos León Alcázar

458

133

01 Dec 2021

Fine-grained Iterative Attention Network for TemporalLanguage Localization in Videos

333

102

06 Aug 2020