Title
Towards Long-Form Video Understanding Chaoxia Wu Philipp Krahenbuhl VLM ViT 41 165 0 21 Jun 2021
Augmented 2D-TAN: A Two-stage Approach for Human-centric Spatio-Temporal Video Grounding C. Tan Zihang Lin Jianfang Hu Xiang Li Weishi Zheng 20 9 0 20 Jun 2021
BABEL: Bodies, Action and Behavior with English Labels Abhinanda R. Punnakkal Arjun Chandrasekaran Nikos Athanasiou Alejandra Quiros-Ramirez Michael J. Black Max Planck Institute for Intelligent Systems 15 209 0 17 Jun 2021
Relation Modeling in Spatio-Temporal Action Localization Yutong Feng Jianwen Jiang Ziyuan Huang Zhiwu Qing Xiang Wang Shiwei Zhang Mingqian Tang Yue Gao 30 11 0 15 Jun 2021
FineAction: A Fine-Grained Video Dataset for Temporal Action Localization Yi Liu Limin Wang Yali Wang Xiao Ma Yu Qiao 22 56 0 24 May 2021
PLM: Partial Label Masking for Imbalanced Multi-label Classification Kevin Duarte Y. S. Rawat M. Shah 31 15 0 22 May 2021
MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions Yixuan Li Lei Chen Runyu He Zhenzhi Wang Gangshan Wu Limin Wang 24 97 0 16 May 2021
MutualNet: Adaptive ConvNet via Mutual Learning from Different Model Configurations Taojiannan Yang Sijie Zhu Matías Mendieta Pu Wang Ravikumar Balakrishnan Minwoo Lee T. Han M. Shah C. L. P. Chen 3DH OOD 28 22 0 14 May 2021
A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning Christoph Feichtenhofer Haoqi Fan Bo Xiong Ross B. Girshick Kaiming He SSL AI4TS 28 257 0 29 Apr 2021
Multiscale Vision Transformers Haoqi Fan Bo Xiong K. Mangalam Yanghao Li Zhicheng Yan Jitendra Malik Christoph Feichtenhofer ViT 54 1,222 0 22 Apr 2021
Object Priors for Classifying and Localizing Unseen Actions Pascal Mettes William Thong Cees G. M. Snoek 21 20 0 10 Apr 2021
The SARAS Endoscopic Surgeon Action Detection (ESAD) dataset: Challenges and methods V. Bawa Gurkirt Singh Francis KapingA I. Skarga-Bandurova Elettra Oleari ... Li Li Armando Stabile Francesco Setti R. Muradore Fabio Cuzzolin 17 36 0 07 Apr 2021
Decoupled Spatial Temporal Graphs for Generic Visual Grounding Qi Feng Yunchao Wei Mingming Cheng Yi Yang 27 5 0 18 Mar 2021
ROAD: The ROad event Awareness Dataset for Autonomous Driving Gurkirt Singh Stephen Akrigg Manuele Di Maio Valentina Fontana Reza Javanmard Alitappeh ... Salman Khan S. Grazioso Andrew Bradley G. Gironimo Fabio Cuzzolin 27 89 0 23 Feb 2021
RMS-Net: Regression and Masking for Soccer Event Spotting Matteo Tomei Lorenzo Baraldi Simone Calderara Simone Bronzin Rita Cucchiara 32 28 0 15 Feb 2021
Efficient video annotation with visual interpolation and frame selection guidance Alina Kuznetsova Aakrati Talati Yiwen Luo Keith Simmons V. Ferrari 26 20 0 23 Dec 2020
Human Mesh Recovery from Multiple Shots Georgios Pavlakos Jitendra Malik Angjoo Kanazawa 3DH 37 57 0 17 Dec 2020
Multi-shot Temporal Event Localization: a Benchmark Xiaolong Liu Yao Hu S. Bai Fei Ding X. Bai Philip H. S. Torr 44 81 0 17 Dec 2020
A Comprehensive Study of Deep Video Action Recognition Yi Zhu Xinyu Li Chunhui Liu Mohammadreza Zolfaghari Yuanjun Xiong Chongruo Wu Zhi-Li Zhang Joseph Tighe R. Manmatha Mu Li VLM AI4TS 35 184 0 11 Dec 2020
MEVA: A Large-Scale Multiview, Multimodal Video Dataset for Activity Detection Kellie Corona Katie Osterdahl Roderic Collins A. Hoogs 19 62 0 02 Dec 2020
SoccerNet-v2: A Dataset and Benchmarks for Holistic Understanding of Broadcast Soccer Videos A. Deliège A. Cioppa Silvio Giancola M. J. Seikavandi J. Dueholm Kamal Nasrollahi Bernard Ghanem T. Moeslund Marc Van Droogenbroeck 13 152 0 26 Nov 2020
Video Big Data Analytics in the Cloud: A Reference Architecture, Survey, Opportunities, and Open Research Issues A. Alam I. Ullah Young-Koo Lee 42 22 0 16 Nov 2020
Human-centric Spatio-Temporal Video Grounding With Visual Transformers Zongheng Tang Yue Liao Si Liu Guanbin Li Xiaojie Jin Hongxu Jiang Qian Yu Dong Xu 19 94 0 10 Nov 2020
Reducing the Annotation Effort for Video Object Segmentation Datasets P. Voigtlaender Lishu Luo C. Yuan Yong-jia Jiang Bastian Leibe VOS 33 19 0 02 Nov 2020
Towards Accurate Human Pose Estimation in Videos of Crowded Scenes Li Yuan Shuning Chang Xuecheng Nie Ziyuan Huang Yichen Zhou Yupeng Chen Jiashi Feng Shuicheng Yan 29 15 0 16 Oct 2020
Pose And Joint-Aware Action Recognition Anshul B. Shah Shlok Kumar Mishra Ankan Bansal Jun-Cheng Chen Ramalingam Chellappa Abhinav Shrivastava 39 33 0 16 Oct 2020
DORi: Discovering Object Relationship for Moment Localization of a Natural-Language Query in Video Cristian Rodriguez-Opazo Edison Marrese-Taylor Basura Fernando Hongdong Li Stephen Gould 129 11 0 13 Oct 2020
HAA500: Human-Centric Atomic Action Dataset with Curated Videos Jihoon Chung Cheng-hsin Wuu Hsuan-ru Yang Yu-Wing Tai Chi-Keung Tang 13 43 0 11 Sep 2020
Spatiotemporal Contrastive Video Representation Learning Rui Qian Tianjian Meng Boqing Gong Ming-Hsuan Yang H. Wang Serge J. Belongie Yin Cui SSL AI4TS 22 491 0 09 Aug 2020
Noisy Student Training using Body Language Dataset Improves Facial Expression Recognition Vikas Kumar Shivansh Rao Li Yu CVBM NoLa 29 31 0 06 Aug 2020
Learning Video Representations from Textual Web Supervision Jonathan C. Stroud Zhichao Lu Chen Sun Jia Deng Rahul Sukthankar Cordelia Schmid David A. Ross SSL 32 48 0 29 Jul 2020
Context-Aware RCNN: A Baseline for Action Detection in Videos Jianchao Wu Zhanghui Kuang Limin Wang Wayne Zhang Gangshan Wu 27 79 0 20 Jul 2020
TinyVIRAT: Low-resolution Video Action Recognition Ugur Demir Y. S. Rawat M. Shah 33 36 0 14 Jul 2020
AViD Dataset: Anonymized Videos from Diverse Countries A. Piergiovanni Michael S. Ryoo 25 35 0 10 Jul 2020
Aligning Videos in Space and Time Senthil Purushwalkam Tian-Chun Ye Saurabh Gupta Abhinav Gupta 22 23 0 09 Jul 2020
Rescaling Egocentric Vision Dima Damen Hazel Doughty G. Farinella Antonino Furnari Evangelos Kazakos ... Davide Moltisanti Jonathan Munro Toby Perrett Will Price Michael Wray EgoV 19 435 0 23 Jun 2020
Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization Junting Pan Siyu Chen Zheng Shou Yu Liu Jing Shao Hongsheng Li 3DPC 17 150 0 14 Jun 2020
Condensed Movies: Story Based Retrieval with Contextual Embeddings Max Bain Arsha Nagrani A. Brown Andrew Zisserman 33 100 0 08 May 2020
Cross-media Structured Common Space for Multimedia Event Extraction Manling Li Alireza Zareian Qi Zeng Spencer Whitehead Di Lu Heng Ji Shih-Fu Chang 10 102 0 05 May 2020
The AVA-Kinetics Localized Human Actions Video Dataset Ang Li Meghana Thotakuri David A. Ross João Carreira Alexander Vostrikov Andrew Zisserman VGen 11 133 0 01 May 2020
Action recognition in real-world videos Waqas Sultani Qazi Ammar Arshad Chen Chen 26 2 0 22 Apr 2020
X3D: Expanding Architectures for Efficient Video Recognition Christoph Feichtenhofer 73 1,000 0 09 Apr 2020
A Local-to-Global Approach to Multi-modal Movie Scene Segmentation Anyi Rao Linning Xu Yu Xiong Guodong Xu Qingqiu Huang Bolei Zhou Dahua Lin 22 111 0 06 Apr 2020
Long Short-Term Relation Networks for Video Action Detection Dong Li Ting Yao Zhaofan Qiu Houqiang Li Tao Mei 12 22 0 31 Mar 2020
Speech2Action: Cross-modal Supervision for Action Recognition Arsha Nagrani Chen Sun David A. Ross Rahul Sukthankar Cordelia Schmid Andrew Zisserman 25 54 0 30 Mar 2020
Learning Interactions and Relationships between Movie Characters Anna Kukleva Makarand Tapaswi Ivan Laptev 38 51 0 29 Mar 2020
Learning a Weakly-Supervised Video Actor-Action Segmentation Model with a Wise Selection Jie Chen Zhiheng Li Jiebo Luo Chenliang Xu 19 13 0 29 Mar 2020
Evolving Losses for Unsupervised Video Representation Learning A. Piergiovanni A. Angelova Michael S. Ryoo SSL 14 138 0 26 Feb 2020
Object Detection as a Positive-Unlabeled Problem Yuewei Yang Kevin J Liang Lawrence Carin 19 37 0 11 Feb 2020
Audiovisual SlowFast Networks for Video Recognition Fanyi Xiao Yong Jae Lee Kristen Grauman Jitendra Malik Christoph Feichtenhofer 197 206 0 23 Jan 2020