SlowFast Networks for Video Recognition

10 December 2018

Christoph Feichtenhofer

Papers citing "SlowFast Networks for Video Recognition"

50 / 529 papers shown

Title
Self-supervised Video Transformer Kanchana Ranasinghe Muzammal Naseer Salman Khan F. Khan Michael S. Ryoo ViT 33 84 0 02 Dec 2021
Video-Text Pre-training with Learned Regions Rui Yan Mike Zheng Shou Yixiao Ge Alex Jinpeng Wang Xudong Lin Guanyu Cai Jinhui Tang 30 23 0 02 Dec 2021
UBoCo : Unsupervised Boundary Contrastive Learning for Generic Event Boundary Detection Hyolim Kang Jinwoo Kim Taehyun Kim Seon Joo Kim 34 25 0 29 Nov 2021
PolyViT: Co-training Vision Transformers on Images, Videos and Audio Valerii Likhosherstov Anurag Arnab K. Choromanski Mario Lucic Yi Tay Adrian Weller Mostafa Dehghani ViT 35 73 0 25 Nov 2021
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling Tsu-jui Fu Linjie Li Zhe Gan Kevin Qinghong Lin W. Wang Lijuan Wang Zicheng Liu VLM 39 216 0 24 Nov 2021
Self-Regulated Learning for Egocentric Video Activity Anticipation Zhaobo Qi Shuhui Wang Chi Su Li Su Qingming Huang Q. Tian EgoV 39 52 0 23 Nov 2021
Efficient Video Transformers with Spatial-Temporal Token Selection Junke Wang Xitong Yang Hengduo Li Li Liu Zuxuan Wu Yu-Gang Jiang ViT 21 63 0 23 Nov 2021
Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions Hongwei Xue Tiankai Hang Yanhong Zeng Yuchong Sun Bei Liu Huan Yang Jianlong Fu B. Guo AI4TS VLM 29 189 0 19 Nov 2021
Evaluating Transformers for Lightweight Action Recognition Raivo Koot Markus Hennerbichler Haiping Lu ViT 28 8 0 18 Nov 2021
Sequence-to-Sequence Modeling for Action Identification at High Temporal Resolution Aakash Kaku Kangning Liu A. Parnandi H. Rajamohan Kannan Venkataramanan Anita Venkatesan Audre Wirtanen Natasha Pandit Heidi M. Schambra C. Fernandez‐Granda 24 5 0 03 Nov 2021
Relational Self-Attention: What's Missing in Attention for Video Understanding Manjin Kim Heeseung Kwon Chunyu Wang Suha Kwak Minsu Cho ViT 27 28 0 02 Nov 2021
AdaPool: Exponential Adaptive Pooling for Information-Retaining Downsampling Alexandros Stergiou R. Poppe 32 78 0 01 Nov 2021
Temporal-attentive Covariance Pooling Networks for Video Recognition Zilin Gao Qilong Wang Bingbing Zhang Q. Hu P. Li 21 24 0 27 Oct 2021
The Efficiency Misnomer Daoyuan Chen Liuyi Yao Dawei Gao Ashish Vaswani Yaliang Li 34 98 0 25 Oct 2021
A Closer Look at Few-Shot Video Classification: A New Baseline and Benchmark Zhenxi Zhu Limin Wang Sheng Guo Gangshan Wu 41 32 0 24 Oct 2021
TEAM-Net: Multi-modal Learning for Video Action Recognition with Partial Decoding Zhengwei Wang Qi She A. Smolic 21 9 0 17 Oct 2021
Shaping embodied agent behavior with activity-context priors from egocentric video Tushar Nagarajan Kristen Grauman EgoV LM&Ro 43 13 0 14 Oct 2021
The Impact of Spatiotemporal Augmentations on Self-Supervised Audiovisual Representation Learning Haider Al-Tahan Y. Mohsenzadeh SSL AI4TS 27 0 0 13 Oct 2021
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 229 1,019 0 13 Oct 2021
Object-Region Video Transformers Roei Herzig Elad Ben-Avraham K. Mangalam Amir Bar Gal Chechik Anna Rohrbach Trevor Darrell Amir Globerson ViT 21 82 0 13 Oct 2021
TAda! Temporally-Adaptive Convolutions for Video Understanding Ziyuan Huang Shiwei Zhang Liang Pan Zhiwu Qing Mingqian Tang Ziwei Liu M. Ang 40 49 0 12 Oct 2021
Joint Learning On The Hierarchy Representation for Fine-Grained Human Action Recognition M. C. Leong Hui Li Tan Haosong Zhang Liyuan Li Feng Lin J. Lim 27 10 0 12 Oct 2021
Towards Streaming Egocentric Action Anticipation Antonino Furnari G. Farinella EgoV 30 6 0 11 Oct 2021
SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign Language Recognition Hezhen Hu Weichao Zhao Wen-gang Zhou Yuechen Wang Houqiang Li ViT 22 63 0 11 Oct 2021
Deep Learning-based Action Detection in Untrimmed Videos: A Survey Elahe Vahdani Yingli Tian 46 60 0 30 Sep 2021
Unsupervised Few-Shot Action Recognition via Action-Appearance Aligned Meta-Adaptation Jay Patravali Gaurav Mittal Ye Yu Fuxin Li Mei Chen 11 19 0 30 Sep 2021
Motion-aware Contrastive Video Representation Learning via Foreground-background Merging Shuangrui Ding Maomao Li Tianyu Yang Rui Qian Haohang Xu Qingyi Chen Jue Wang Hongkai Xiong SSL 23 49 0 30 Sep 2021
CLIPort: What and Where Pathways for Robotic Manipulation Mohit Shridhar Lucas Manuelli D. Fox LM&Ro 36 629 0 24 Sep 2021
Survey: Transformer based Video-Language Pre-training Ludan Ruan Qin Jin VLM ViT 72 44 0 21 Sep 2021
ActionCLIP: A New Paradigm for Video Action Recognition Mengmeng Wang Jiazheng Xing Yong Liu VLM 149 362 0 17 Sep 2021
Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding Zhenzhi Wang Limin Wang Tao Wu Tianhao Li Gangshan Wu AI4TS 28 116 0 10 Sep 2021
Revisiting 3D ResNets for Video Recognition Xianzhi Du Yeqing Li Yin Cui Rui Qian Jing Li Irwan Bello 51 17 0 03 Sep 2021
SlowFast Rolling-Unrolling LSTMs for Action Anticipation in Egocentric Videos Nada Osman Guglielmo Camporese Pasquale Coscia Lamberto Ballan EgoV 36 20 0 02 Sep 2021
LIGAR: Lightweight General-purpose Action Recognition Evgeny Izutov 10 3 0 30 Aug 2021
Searching for Two-Stream Models in Multivariate Space for Video Recognition Xinyu Gong Heng Wang Zheng Shou Matt Feiszli Zhangyang Wang Zhicheng Yan 27 9 0 30 Aug 2021
A Multimodal Framework for Video Ads Understanding Zejia Weng Lingjiang Meng Rui Wang Zuxuan Wu Yu-Gang Jiang 28 1 0 29 Aug 2021
MM-ViT: Multi-Modal Video Transformer for Compressed Video Action Recognition Jiawei Chen C. Ho ViT 24 77 0 20 Aug 2021
Blindly Assess Quality of In-the-Wild Videos via Quality-aware Pre-training and Motion Perception Bowen Li Weixia Zhang Meng Tian Guangtao Zhai Xianpei Wang 28 119 0 19 Aug 2021
Temporal Action Segmentation with High-level Complex Activity Labels Guodong Ding Angela Yao 25 18 0 15 Aug 2021
Enhancing Self-supervised Video Representation Learning via Multi-level Feature Optimization Rui Qian Yuxi Li Huabin Liu John See Shuangrui Ding Xian Liu Dian Li Weiyao Lin 30 42 0 04 Aug 2021
Spatio-Temporal Representation Factorization for Video-based Person Re-Identification Abhishek Aich Meng Zheng Srikrishna Karanam Terrence Chen A. Roy-Chowdhury Ziyan Wu 29 70 0 25 Jul 2021
Adaptive Recursive Circle Framework for Fine-grained Action Recognition Hanxi Lin Xinxiao Wu Jiebo Luo 25 1 0 25 Jul 2021
EAN: Event Adaptive Network for Enhanced Action Recognition Yuan Tian Yichao Yan Guangtao Zhai G. Guo Zhiyong Gao 32 41 0 22 Jul 2021
Evidential Deep Learning for Open Set Action Recognition Wentao Bao Qi Yu Yu Kong CML EDL 13 135 0 21 Jul 2021
QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries Jie Lei Tamara L. Berg Mohit Bansal ViT 24 62 0 20 Jul 2021
UNIK: A Unified Framework for Real-world Skeleton-based Action Recognition Di Yang Yaohui Wang A. Dantcheva Lorenzo Garattoni Gianpiero Francesca F. Brémond 19 47 0 19 Jul 2021
Fine-Grained AutoAugmentation for Multi-Label Classification Y. Wang Hesen Chen Fangyi Zhang Yaohua Wang Xiuyu Sun Ming Lin Hao Li 16 2 0 12 Jul 2021
Attention Bottlenecks for Multimodal Fusion Arsha Nagrani Shan Yang Anurag Arnab A. Jansen Cordelia Schmid Chen Sun 25 541 0 30 Jun 2021
Spatio-Temporal Context for Action Detection Manuel Sarmiento Calderó David Varas Elisenda Bou 21 2 0 29 Jun 2021
Feature Combination Meets Attention: Baidu Soccer Embeddings and Transformer based Temporal Detection Xin Zhou Le Kang Zhiyu Cheng Bo He Jingyu Xin 46 34 0 28 Jun 2021