Dense Video Object Captioning from Disjoint Supervision

20 June 2023

Papers citing "Dense Video Object Captioning from Disjoint Supervision"

5 / 5 papers shown

Title
Large-scale Pre-training for Grounded Video Caption Generation Evangelos Kazakos Cordelia Schmid Josef Sivic 52 0 0 13 Mar 2025
Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video Grounding Yang Jin Yongzhi Li Zehuan Yuan Yadong Mu 29 32 0 27 Sep 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 303 11,730 0 04 Mar 2022
SCENIC: A JAX Library for Computer Vision Research and Beyond Mostafa Dehghani A. Gritsenko Anurag Arnab Matthias Minderer Yi Tay 41 67 0 18 Oct 2021
ByteTrack: Multi-Object Tracking by Associating Every Detection Box Yifu Zhang Pei Sun Yi-Xin Jiang Dongdong Yu Fucheng Weng Zehuan Yuan Ping Luo Wenyu Liu Xinggang Wang VOT 96 1,289 0 13 Oct 2021