Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding

18 March 2024

Papers citing "Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding"

9 / 9 papers shown

Title
Object-Shot Enhanced Grounding Network for Egocentric Video Yisen Feng Haoyu Zhang Meng Liu Weili Guan Liqiang Nie 36 0 0 07 May 2025
Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video Grounding Xin Gu Yaojie Shen Chenxi Luo Tiejian Luo Yan Huang Yuewei Lin Heng Fan L. Zhang 53 1 0 16 Feb 2025
Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? Wenhao Wu Haipeng Luo Bo Fang Jingdong Wang Wanli Ouyang 90 80 0 31 Dec 2022
DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR Shilong Liu Feng Li Hao Zhang X. Yang Xianbiao Qi Hang Su Jun Zhu Lei Zhang ViT 138 703 0 28 Jan 2022
Self-supervised Learning for Semi-supervised Temporal Language Grounding Fan Luo Shaoxiang Chen Jingjing Chen Zuxuan Wu Yu-Gang Jiang VLM 35 11 0 23 Sep 2021
End-to-End Dense Video Grounding via Parallel Regression Fengyuan Shi Weilin Huang Limin Wang 30 10 0 23 Sep 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 283 5,723 0 29 Apr 2021
Natural Language Video Localization: A Revisit in Span-based Question Answering Framework Hao Zhang Aixin Sun Wei Jing Liangli Zhen Joey Tianyi Zhou Rick Siow Mong Goh 111 84 0 26 Feb 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 404 594 0 21 Jul 2020