Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video Grounding

27 September 2022

Papers citing "Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video Grounding"

7 / 7 papers shown

Title
Large-scale Pre-training for Grounded Video Caption Generation Evangelos Kazakos Cordelia Schmid Josef Sivic 52 0 0 13 Mar 2025
Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video Grounding Xin Gu Yaojie Shen Chenxi Luo Tiejian Luo Yan Huang Yuewei Lin Heng Fan L. Zhang 53 1 0 16 Feb 2025
Towards Parameter-Efficient Integration of Pre-Trained Language Models In Temporal Video Grounding Erica K. Shimomoto Edison Marrese-Taylor Hiroya Takamura Ichiro Kobayashi Hideki Nakayama Yusuke Miyao 8 7 0 26 Sep 2022
DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR Shilong Liu Feng Li Hao Zhang X. Yang Xianbiao Qi Hang Su Jun Zhu Lei Zhang ViT 138 703 0 28 Jan 2022
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 404 594 0 21 Jul 2020
Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation Gen Luo Yiyi Zhou Xiaoshuai Sun Liujuan Cao Chenglin Wu Cheng Deng Rongrong Ji ObjD 159 282 0 19 Mar 2020
A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension Yue Liao Si Liu Guanbin Li Fei-Yue Wang Yanjie Chen Chao Qian Bo-wen Li ObjD 62 174 0 16 Sep 2019