CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video
Temporal Grounding

CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video Temporal Grounding

22 September 2022

Chong-Wah Ngo

Papers citing "CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video Temporal Grounding"

13 / 13 papers shown

Title
Object-Shot Enhanced Grounding Network for Egocentric Video Yisen Feng Haoyu Zhang Meng Liu Weili Guan Liqiang Nie 36 0 0 07 May 2025
SEAL: Semantic Attention Learning for Long Video Representation Lan Wang Yujia Chen Wen-Sheng Chu Vishnu Naresh Boddeti Du Tran VLM 67 0 0 02 Dec 2024
RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos Tanveer Hannan Md. Mohaiminul Islam Thomas Seidl Gedas Bertasius 22 3 0 11 Dec 2023
MINOTAUR: Multi-task Video Grounding From Multimodal Queries Raghav Goyal E. Mavroudi Xitong Yang Sainbayar Sukhbaatar Leonid Sigal Matt Feiszli Lorenzo Torresani Du Tran 8 7 0 16 Feb 2023
NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory Santhosh Kumar Ramakrishnan Ziad Al-Halah Kristen Grauman 77 39 0 02 Jan 2023
Contrastive Video-Language Learning with Fine-grained Frame Sampling Zixu Wang Yujie Zhong Yishu Miao Lin Ma Lucia Specia 27 11 0 10 Oct 2022
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 218 682 0 13 Oct 2021
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding Hu Xu Gargi Ghosh Po-Yao (Bernie) Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Florian Metze Luke Zettlemoyer Christoph Feichtenhofer CLIP VLM 245 554 0 28 Sep 2021
Distilling Audio-Visual Knowledge by Compositional Contrastive Learning Yanbei Chen Yongqin Xian A. Sophia Koepke Ying Shan Zeynep Akata 62 79 0 22 Apr 2021
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 303 771 0 18 Apr 2021
Natural Language Video Localization: A Revisit in Span-based Question Answering Framework Hao Zhang Aixin Sun Wei Jing Liangli Zhen Joey Tianyi Zhou Rick Siow Mong Goh 98 84 0 26 Feb 2021
COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining Yu Meng Chenyan Xiong Payal Bajaj Saurabh Tiwary Paul N. Bennett Jiawei Han Xia Song 114 201 0 16 Feb 2021
TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval Jie Lei Licheng Yu Tamara L. Berg Mohit Bansal 106 268 0 24 Jan 2020