SlowFast Networks for Video Recognition

10 December 2018

Christoph Feichtenhofer

Papers citing "SlowFast Networks for Video Recognition"

50 / 514 papers shown

Title
Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey Yuecong Xu Haozhi Cao Zhenghua Chen Xiaoli Li Lihua Xie Jianfei Yang 24 14 0 17 Nov 2022
Token Turing Machines Michael S. Ryoo K. Gopalakrishnan Kumara Kahatapitiya Ted Xiao Kanishka Rao Austin Stone Yao Lu Julian Ibarz Anurag Arnab 27 21 0 16 Nov 2022
Where a Strong Backbone Meets Strong Features -- ActionFormer for Ego4D Moment Queries Challenge Fangzhou Mu Sicheng Mo Gillian Wang Yin Li 22 3 0 16 Nov 2022
A Simple Transformer-Based Model for Ego4D Natural Language Queries Challenge Sicheng Mo Fangzhou Mu Yin Li 22 7 0 16 Nov 2022
Discovering A Variety of Objects in Spatio-Temporal Human-Object Interactions Yong-Lu Li Hongwei Fan Zuoyu Qiu Yiming Dou Liang Xu ... Peiyang Guo Haisheng Su Dongliang Wang Wei Yu Wu Cewu Lu 35 7 0 14 Nov 2022
Extending Temporal Data Augmentation for Video Action Recognition Artjoms Gorpincenko Michal Mackiewicz ViT 21 4 0 09 Nov 2022
Eat-Radar: Continuous Fine-Grained Intake Gesture Detection Using FMCW Radar and 3D Temporal Convolutional Network with Attention C. Wang T. S. Kumar W. de Raedt Guido Camps Hans Hallez Bart Vanrumste 16 12 0 08 Nov 2022
Bringing Online Egocentric Action Recognition into the wild Gabriele Goletto M. Planamente Barbara Caputo Giuseppe Averta EgoV 17 3 0 06 Nov 2022
Human in the loop approaches in multi-modal conversational task guidance system development R. Manuvinakurike Sovan Biswas G. Raffa R. Beckwith A. Rhodes Meng Shi Gesem Gudino Mejia Saurav Sahay L. Nachman 32 2 0 03 Nov 2022
Video Event Extraction via Tracking Visual States of Arguments Guang Yang Manling Li Jiajie Zhang Xudong Lin Shih-Fu Chang Heng Ji 30 9 0 03 Nov 2022
Two-Stream Network for Sign Language Recognition and Translation Yutong Chen Ronglai Zuo Fangyun Wei Yu-Huan Wu Shujie Liu Brian Mak SLR 26 118 0 02 Nov 2022
Distill and Collect for Semi-Supervised Temporal Action Segmentation Sovan Biswas A. Rhodes R. Manuvinakurike G. Raffa R. Beckwith 24 0 0 02 Nov 2022
Impact of annotation modality on label quality and model performance in the automatic assessment of laughter in-the-wild Jose Vargas-Quiros Laura Cabrera-Quiros Catharine Oertel Hayley Hung 17 5 0 02 Nov 2022
GliTr: Glimpse Transformers with Spatiotemporal Consistency for Online Action Prediction Samrudhdhi B. Rangrej Kevin J Liang Tal Hassner James J. Clark 27 3 0 24 Oct 2022
OLLA: Optimizing the Lifetime and Location of Arrays to Reduce the Memory Usage of Neural Networks Benoit Steiner Mostafa Elhoushi Jacob Kahn James Hegarty 29 8 0 24 Oct 2022
Holistic Interaction Transformer Network for Action Detection Gueter Josmy Faure Min-Hung Chen S. Lai 33 37 0 23 Oct 2022
Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval Minjoon Jung Seongho Choi Joo-Kyung Kim Jin-Hwa Kim Byoung-Tak Zhang 31 7 0 23 Oct 2022
Transformer-based Action recognition in hand-object interacting scenarios Hoseong Cho Seungryul Baek EgoV 29 2 0 20 Oct 2022
MovieCLIP: Visual Scene Recognition in Movies Digbalay Bose Rajat Hebbar Krishna Somandepalli Haoyang Zhang Yin Cui K. Cole-McLaughlin H. Wang Shrikanth Narayanan CLIP 12 20 0 20 Oct 2022
Grounded Video Situation Recognition Zeeshan Khan C. V. Jawahar Makarand Tapaswi 22 13 0 19 Oct 2022
Temporal and Contextual Transformer for Multi-Camera Editing of TV Shows Anyi Rao Xuekun Jiang Sichen Wang Yuwei Guo Zihao Liu Bo Dai Long Pang Xiaoyu Wu Dahua Lin Libiao Jin 16 6 0 17 Oct 2022
Selective Query-guided Debiasing for Video Corpus Moment Retrieval Sunjae Yoon Jiajing Hong Eunseop Yoon Dahyun Kim Junyeong Kim Hee Suk Yoon Changdong Yoo 33 21 0 17 Oct 2022
S4ND: Modeling Images and Videos as Multidimensional Signals Using State Spaces Eric N. D. Nguyen Karan Goel Albert Gu Gordon W. Downs Preey Shah Tri Dao S. Baccus Christopher Ré VLM 22 38 0 12 Oct 2022
Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning Yuchong Sun Hongwei Xue Ruihua Song Bei Liu Huan Yang Jianlong Fu AI4TS VLM 16 68 0 12 Oct 2022
DG-STGCN: Dynamic Spatial-Temporal Modeling for Skeleton-based Action Recognition Haodong Duan Jiaqi Wang Kai-xiang Chen Dahua Lin 30 41 0 12 Oct 2022
Motion Aware Self-Supervision for Generic Event Boundary Detection Ayush Rai Tarun Krishna J. Dietlmeier Kevin McGuinness A. Smeaton Noel E. O'Connor 21 2 0 11 Oct 2022
Hierarchical3D Adapters for Long Video-to-text Summarization Pinelopi Papalampidi Mirella Lapata VGen 27 12 0 10 Oct 2022
HVS Revisited: A Comprehensive Video Quality Assessment Framework Ao Zhang Yuan-Gen Wang Weixuan Tang Leida Li Sam Kwong 56 7 0 09 Oct 2022
Self-supervised Video Representation Learning with Motion-Aware Masked Autoencoders Haosen Yang Deng Huang Bin Wen Jiannan Wu H. Yao Yi-Xin Jiang Xiatian Zhu Zehuan Yuan 29 19 0 09 Oct 2022
AOE-Net: Entities Interactions Modeling with Adaptive Attention Mechanism for Temporal Action Proposals Generation Khoa T. Vo Sang Truong Kashu Yamazaki Bhiksha Raj Minh-Triet Tran Ngan Le 80 26 0 05 Oct 2022
ROAD-R: The Autonomous Driving Dataset with Logical Requirements Eleonora Giunchiglia Mihaela C. Stoian Salman Khan Fabio Cuzzolin Thomas Lukasiewicz AI4TS 41 31 0 04 Oct 2022
Learning State-Aware Visual Representations from Audible Interactions Himangi Mittal Pedro Morgado Unnat Jain Abhinav Gupta 72 22 0 27 Sep 2022
TAD: A Large-Scale Benchmark for Traffic Accidents Detection from Video Surveillance Yajun Xu Chuwen Huang Yibing Nan Shiguo Lian 35 8 0 26 Sep 2022
MECCANO: A Multimodal Egocentric Dataset for Humans Behavior Understanding in the Industrial-like Domain Francesco Ragusa Antonino Furnari G. Farinella EgoV 40 23 0 19 Sep 2022
MAiVAR: Multimodal Audio-Image and Video Action Recognizer Muhammad Bilal Shaikh Douglas Chai S. Islam Naveed Akhtar 27 5 0 11 Sep 2022
An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling Tsu-jui Fu Linjie Li Zhe Gan Kevin Qinghong Lin William Yang Wang Lijuan Wang Zicheng Liu VLM 19 63 0 04 Sep 2022
A Novel Self-Knowledge Distillation Approach with Siamese Representation Learning for Action Recognition Duc-Quang Vu T. Phung Jia-Ching Wang 11 9 0 03 Sep 2022
A Circular Window-based Cascade Transformer for Online Action Detection Shuyuan Cao Weihua Luo Bairui Wang Wei Emma Zhang Lin Ma 39 6 0 30 Aug 2022
Lane Change Classification and Prediction with Action Recognition Networks Kai-Bin Liang Jun Wang A. Bhalerao 16 2 0 24 Aug 2022
Modality Mixer for Multi-modal Action Recognition Sumin Lee Sangmin Woo Yeonju Park Muhammad Adi Nugroho Changick Kim 19 10 0 24 Aug 2022
Efficient Attention-free Video Shift Transformers Adrian Bulat Brais Martínez Georgios Tzimiropoulos ViT 27 1 0 23 Aug 2022
Action Recognition based on Cross-Situational Action-object Statistics Satoshi Tsutsui Xizi Wang Guangyuan Weng Yayun Zhang David J. Crandall Chen Yu 38 2 0 15 Aug 2022
Expanding Language-Image Pretrained Models for General Video Recognition Bolin Ni Houwen Peng Minghao Chen Songyang Zhang Gaofeng Meng Jianlong Fu Shiming Xiang Haibin Ling VLM CLIP ViT 25 313 0 04 Aug 2022
Video Question Answering with Iterative Video-Text Co-Tokenization A. Piergiovanni K. Morton Weicheng Kuo Michael S. Ryoo A. Angelova 20 18 0 01 Aug 2022
Object-ABN: Learning to Generate Sharp Attention Maps for Action Recognition Tomoya Nitta Tsubasa Hirakawa H. Fujiyoshi Toru Tamaki 58 0 0 27 Jul 2022
Adaptive occlusion sensitivity analysis for visually explaining video recognition networks Tomoki Uchiyama Naoya Sogi S. Iizuka Koichiro Niinuma Kazuhiro Fukui 24 2 0 26 Jul 2022
Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training Haoxuan You Luowei Zhou Bin Xiao Noel Codella Yu Cheng Ruochen Xu Shih-Fu Chang Lu Yuan CLIP VLM 21 48 0 26 Jul 2022
Intention-Conditioned Long-Term Human Egocentric Action Forecasting Esteve Valls Mascaro Hyemin Ahn Dongheui Lee EgoV 19 28 0 25 Jul 2022
Object State Change Classification in Egocentric Videos using the Divided Space-Time Attention Mechanism Md. Mohaiminul Islam Gedas Bertasius 19 7 0 24 Jul 2022
MAR: Masked Autoencoders for Efficient Action Recognition Zhiwu Qing Shiwei Zhang Ziyuan Huang Xiang Wang Yuehuang Wang Yiliang Lv Changxin Gao Nong Sang 21 42 0 24 Jul 2022