Moments in Time Dataset: one million videos for event understanding

9 January 2018

Carl Vondrick

Papers citing "Moments in Time Dataset: one million videos for event understanding"

50 / 268 papers shown

Title
Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions Mathew Monfort SouYoung Jin Alexander H. Liu David Harwath Rogerio Feris James Glass Aude Oliva 6 60 0 10 May 2021
VideoLT: Large-scale Long-tailed Video Recognition Xing Zhang Zuxuan Wu Zejia Weng H. Fu Jingjing Chen Yu-Gang Jiang Larry S. Davis 30 41 0 06 May 2021
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text Hassan Akbari Liangzhe Yuan Rui Qian Wei-Hong Chuang Shih-Fu Chang Yin Cui Boqing Gong ViT 242 577 0 22 Apr 2021
Adaptive Intermediate Representations for Video Understanding Juhana Kangaspunta A. Piergiovanni Rico Jonschkowski Michael S. Ryoo A. Angelova 13 3 0 14 Apr 2021
The SARAS Endoscopic Surgeon Action Detection (ESAD) dataset: Challenges and methods V. Bawa Gurkirt Singh Francis KapingA I. Skarga-Bandurova Elettra Oleari ... Li Li Armando Stabile Francesco Setti R. Muradore Fabio Cuzzolin 17 36 0 07 Apr 2021
Visual Semantic Role Labeling for Video Understanding Arka Sadhu Tanmay Gupta Mark Yatskar Ram Nevatia Aniruddha Kembhavi VLM 17 68 0 02 Apr 2021
Memorability: An image-computable measure of information utility Zoya Bylinskii L. Goetschalckx Anelise Newman A. Oliva HAI 6 19 0 01 Apr 2021
ViViT: A Video Vision Transformer Anurag Arnab Mostafa Dehghani G. Heigold Chen Sun Mario Lucic Cordelia Schmid ViT 30 2,086 0 29 Mar 2021
MoViNets: Mobile Video Networks for Efficient Video Recognition Dan Kondratyuk Liangzhe Yuan Yandong Li Li Zhang Mingxing Tan Matthew A. Brown Boqing Gong 13 228 0 21 Mar 2021
ACTION-Net: Multipath Excitation for Action Recognition Zhengwei Wang Qi She A. Smolic 3DPC 16 165 0 11 Mar 2021
PHASE: PHysically-grounded Abstract Social Events for Machine Social Perception Aviv Netanyahu Tianmin Shu Boris Katz Andrei Barbu J. Tenenbaum 15 37 0 02 Mar 2021
ROAD: The ROad event Awareness Dataset for Autonomous Driving Gurkirt Singh Stephen Akrigg Manuele Di Maio Valentina Fontana Reza Javanmard Alitappeh ... Salman Khan S. Grazioso Andrew Bradley G. Gironimo Fabio Cuzzolin 27 89 0 23 Feb 2021
VA-RED $^2$ : Video Adaptive Redundancy Reduction Bowen Pan Rameswar Panda Camilo Luciano Fosco Chung-Ching Lin A. Andonian Yue Meng Kate Saenko A. Oliva Rogerio Feris 15 19 0 15 Feb 2021
AdaFuse: Adaptive Temporal Fusion Network for Efficient Action Recognition Yue Meng Rameswar Panda Chung-Ching Lin P. Sattigeri Leonid Karlinsky Kate Saenko A. Oliva Rogerio Feris 68 62 0 10 Feb 2021
Video Transformer Network Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann ViT 193 421 0 01 Feb 2021
ACAV100M: Automatic Curation of Large-Scale Datasets for Audio-Visual Video Representation Learning Sangho Lee Jiwan Chung Youngjae Yu Gunhee Kim Thomas Breuel Gal Chechik Yale Song 71 45 0 26 Jan 2021
Pre-training without Natural Images Hirokatsu Kataoka Kazushige Okayasu Asato Matsumoto Eisuke Yamagata Ryosuke Yamada Nakamasa Inoue Akio Nakamura Y. Satoh 79 116 0 21 Jan 2021
A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action Localization Ashraful Islam Chengjiang Long Richard J. Radke 22 123 0 03 Jan 2021
Human Action Recognition from Various Data Modalities: A Review Zehua Sun Qiuhong Ke Hossein Rahmani Mohammed Bennamoun Gang Wang Jun Liu MU 37 502 0 22 Dec 2020
Multi-shot Temporal Event Localization: a Benchmark Xiaolong Liu Yao Hu S. Bai Fei Ding X. Bai Philip H. S. Torr 36 81 0 17 Dec 2020
A Comprehensive Study of Deep Video Action Recognition Yi Zhu Xinyu Li Chunhui Liu Mohammadreza Zolfaghari Yuanjun Xiong Chongruo Wu Zhi-Li Zhang Joseph Tighe R. Manmatha Mu Li VLM AI4TS 30 184 0 11 Dec 2020
Data and its (dis)contents: A survey of dataset development and use in machine learning research Amandalynne Paullada Inioluwa Deborah Raji Emily M. Bender Emily L. Denton A. Hanna 44 510 0 09 Dec 2020
MEVA: A Large-Scale Multiview, Multimodal Video Dataset for Activity Detection Kellie Corona Katie Osterdahl Roderic Collins A. Hoogs 14 62 0 02 Dec 2020
SoccerNet-v2: A Dataset and Benchmarks for Holistic Understanding of Broadcast Soccer Videos A. Deliège A. Cioppa Silvio Giancola M. J. Seikavandi J. Dueholm Kamal Nasrollahi Bernard Ghanem T. Moeslund Marc Van Droogenbroeck 13 151 0 26 Nov 2020
Recent Progress in Appearance-based Action Recognition J. Humphreys Zhe Chen Dacheng Tao 11 0 0 25 Nov 2020
Semi-Supervised Few-Shot Atomic Action Recognition Xiaoyuan Ni Sizhe Song Yu-Wing Tai Chi-Keung Tang 13 3 0 17 Nov 2020
Multi-Temporal Convolutions for Human Action Recognition in Videos Alexandros Stergiou R. Poppe 14 1 0 08 Nov 2020
S3-Net: A Fast and Lightweight Video Scene Understanding Network by Single-shot Segmentation Yuan-Chia Cheng Yuchao Yang Hai-Bao Chen Ngai Wong Hao Yu 3DPC 27 3 0 04 Nov 2020
Deep Analysis of CNN-based Spatio-temporal Representations for Action Recognition Chun-Fu Chen Rameswar Panda K. Ramakrishnan Rogerio Feris J. M. Cohn A. Oliva Quanfu Fan 21 95 0 22 Oct 2020
Video Action Understanding Matthew Hutchinson V. Gadepally 28 20 0 13 Oct 2020
Visual Methods for Sign Language Recognition: A Modality-Based Review B. Seddik N. Amara SLR 30 1 0 22 Sep 2020
Themes Informed Audio-visual Correspondence Learning Runze Su Fei Tao Xudong Liu Haoran Wei Xiaorong Mei Z. Duan Lei Yuan Ji Liu Yuying Xie 22 5 0 14 Sep 2020
HAA500: Human-Centric Atomic Action Dataset with Curated Videos Jihoon Chung Cheng-hsin Wuu Hsuan-ru Yang Yu-Wing Tai Chi-Keung Tang 13 43 0 11 Sep 2020
Multimodal Memorability: Modeling Effects of Semantics and Decay on Video Memorability Anelise Newman Camilo Luciano Fosco Vincent Casser Allen Lee Mcnamara A. Oliva 11 49 0 05 Sep 2020
Accuracy and Performance Comparison of Video Action Recognition Approaches Matthew Hutchinson S. Samsi William Arcand David Bestor Bill Bergeron ... Andrew Prout Antonio Rosa Albert Reuther Charles Yee V. Gadepally 6 5 0 20 Aug 2020
DFEW: A Large-Scale Database for Recognizing Dynamic Facial Expressions in the Wild Xingxun Jiang Yuan Zong Wenming Zheng Chuangao Tang Wanchuang Xia Cheng Lu Jiateng Liu 14 153 0 13 Aug 2020
A Unified Framework for Shot Type Classification Based on Subject Centric Lens Anyi Rao Jiaze Wang Linning Xu Xuekun Jiang Qingqiu Huang Bolei Zhou Dahua Lin 18 60 0 08 Aug 2020
AR-Net: Adaptive Frame Resolution for Efficient Action Recognition Yue Meng Chung-Ching Lin Rameswar Panda P. Sattigeri Leonid Karlinsky A. Oliva Kate Saenko Rogerio Feris 15 141 0 31 Jul 2020
LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task Activities Baoxiong Jia Yixin Chen Siyuan Huang Yixin Zhu Song-Chun Zhu 8 51 0 31 Jul 2020
AttentionNAS: Spatiotemporal Attention Cell Search for Video Classification Xiaofang Wang Xuehan Xiong Maxim Neumann A. Piergiovanni Michael S. Ryoo A. Angelova Kris M. Kitani Wei Hua 11 51 0 23 Jul 2020
Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos Anurag Arnab Chen Sun Arsha Nagrani Cordelia Schmid 20 24 0 21 Jul 2020
TinyVIRAT: Low-resolution Video Action Recognition Ugur Demir Y. S. Rawat M. Shah 25 36 0 14 Jul 2020
Adversarial Background-Aware Loss for Weakly-supervised Temporal Activity Localization Kyle Min Jason J. Corso 6 102 0 13 Jul 2020
AViD Dataset: Anonymized Videos from Diverse Countries A. Piergiovanni Michael S. Ryoo 22 35 0 10 Jul 2020
Rescaling Egocentric Vision Dima Damen Hazel Doughty G. Farinella Antonino Furnari Evangelos Kazakos ... Davide Moltisanti Jonathan Munro Toby Perrett Will Price Michael Wray EgoV 14 435 0 23 Jun 2020
Learn to cycle: Time-consistent feature discovery for action recognition Alexandros Stergiou R. Poppe 14 23 0 15 Jun 2020
Understanding Human Hands in Contact at Internet Scale Dandan Shan Jiaqi Geng Michelle Shu David Fouhey 11 319 0 11 Jun 2020
Condensed Movies: Story Based Retrieval with Contextual Embeddings Max Bain Arsha Nagrani A. Brown Andrew Zisserman 28 100 0 08 May 2020
The EPIC-KITCHENS Dataset: Collection, Challenges and Baselines Dima Damen Hazel Doughty G. Farinella Sanja Fidler Antonino Furnari ... Davide Moltisanti Jonathan Munro Toby Perrett Will Price Michael Wray EgoV 21 226 0 29 Apr 2020
Action recognition in real-world videos Waqas Sultani Qazi Ammar Arshad Chen Chen 24 2 0 22 Apr 2020