SlowFast Networks for Video Recognition

10 December 2018

Christoph Feichtenhofer

Papers citing "SlowFast Networks for Video Recognition"

50 / 529 papers shown

Title
EgoEnv: Human-centric environment representations from egocentric video Tushar Nagarajan Santhosh Kumar Ramakrishnan Ruta Desai James M. Hillis Kristen Grauman EgoV 28 19 0 22 Jul 2022
Sequence Models for Drone vs Bird Classification Fatih Çagatay Akyön Erdem Akagündüz S. Altinuc A. Temi̇zel 21 1 0 21 Jul 2022
Is an Object-Centric Video Representation Beneficial for Transfer? Chuhan Zhang Ankush Gupta Andrew Zisserman ViT 37 26 0 20 Jul 2022
ViGAT: Bottom-up event recognition and explanation in video using factorized graph attention network Nikolaos Gkalelis Dimitrios Daskalakis Vasileios Mezaris 13 10 0 20 Jul 2022
Learning Sequence Representations by Non-local Recurrent Neural Memory Wenjie Pei Xin Feng Canmiao Fu Qi Cao Guangming Lu Yu-Wing Tai AI4TS 24 1 0 20 Jul 2022
ERA: Expert Retrieval and Assembly for Early Action Prediction Lin Geng Foo Tianjiao Li Hossein Rahmani Qiuhong Ke J. Liu 19 15 0 20 Jul 2022
Hierarchically Self-Supervised Transformer for Human Skeleton Representation Learning Yuxiao Chen Long Zhao Jianbo Yuan Yu Tian Zhaoyang Xia Shijie Geng Ligong Han Dimitris N. Metaxas ViT 21 32 0 20 Jul 2022
Human-to-Robot Imitation in the Wild Shikhar Bahl Abhi Gupta Deepak Pathak 19 163 0 19 Jul 2022
Time Is MattEr: Temporal Self-supervision for Video Transformers Sukmin Yun Jaehyung Kim Dongyoon Han Hwanjun Song Jung-Woo Ha Jinwoo Shin ViT 15 12 0 19 Jul 2022
TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval Yuqi Liu Pengfei Xiong Luhui Xu Shengming Cao Qin Jin 30 113 0 16 Jul 2022
Beyond Transfer Learning: Co-finetuning for Action Localisation Anurag Arnab Xuehan Xiong A. Gritsenko Rob Romijnders Josip Djolonga Mostafa Dehghani Chen Sun Mario Lucic Cordelia Schmid 30 8 0 08 Jul 2022
VidConv: A modernized 2D ConvNet for Efficient Video Recognition Chuong H. Nguyen Su Huynh Vinh Nguyen Ngoc-Khanh Nguyen ViT 27 3 0 08 Jul 2022
MVP: Robust Multi-View Practice for Driving Action Localization Jingjie Shang Kunchang Li Kaibin Tian Haisheng Su Yangguang Li 29 3 0 05 Jul 2022
Large-scale Robustness Analysis of Video Action Recognition Models Madeline Chantry Schiappa Naman Biyani Prudvi Kamtam Shruti Vyas Hamid Palangi Vibhav Vineet Y. S. Rawat AAML 29 24 0 04 Jul 2022
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition Wenhao Wu Zhun Sun Wanli Ouyang VLM 99 93 0 04 Jul 2022
ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries Challenge 2022 Na Liu Xiaohan Wang Xiaobo Li Yi Yang Yueting Zhuang 20 18 0 01 Jul 2022
(Un)likelihood Training for Interpretable Embedding Jiaxin Wu Chong-Wah Ngo W. Chan Zhijian Hou 12 2 0 01 Jul 2022
One-stage Action Detection Transformer Lijun Li Lian Zhuo Bangyin Zhang ViT 22 0 0 21 Jun 2022
Context-aware Proposal Network for Temporal Action Detection Xiang Wang H. Zhang Shiwei Zhang Changxin Gao Yuanjie Shao Nong Sang 11 2 0 18 Jun 2022
RF-Next: Efficient Receptive Field Search for Convolutional Neural Networks Shanghua Gao Zhong-Yu Li Qi Han Ming-Ming Cheng Liang Wang 32 34 0 14 Jun 2022
MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing Zhaofan Qiu Ting Yao Chong-Wah Ngo Tao Mei ViT 24 15 0 13 Jun 2022
Precise Affordance Annotation for Egocentric Action Video Datasets Zecheng Yu Yifei Huang Ryosuke Furuta Takuma Yagi Yusuke Goutsu Yoichi Sato EgoV 25 0 0 11 Jun 2022
Revisiting the "Video" in Video-Language Understanding S. Buch Cristobal Eyzaguirre Adrien Gaidon Jiajun Wu L. Fei-Fei Juan Carlos Niebles 27 156 0 03 Jun 2022
Egocentric Video-Language Pretraining Kevin Qinghong Lin Alex Jinpeng Wang Mattia Soldan Michael Wray Rui Yan ... Hongfa Wang Dima Damen Bernard Ghanem Wei Liu Mike Zheng Shou VLM EgoV 46 188 0 03 Jun 2022
A Survey on Video Action Recognition in Sports: Datasets, Methods and Applications Fei Wu Qingzhong Wang Jian Bian Haoyi Xiong Ning Ding Feixiang Lu Junqing Cheng Dejing Dou AI4TS 24 52 0 02 Jun 2022
Unified Recurrence Modeling for Video Action Anticipation Tsung-Ming Tai G. Fiameni Cheng-Kuang Lee Simon See O. Lanz 21 8 0 02 Jun 2022
GraSens: A Gabor Residual Anti-aliasing Sensing Framework for Action Recognition using WiFi Yanling Hao Zhiyuan Shi Xidong Mu Yuanwei Liu 22 2 0 24 May 2022
Cross-Enhancement Transformer for Action Segmentation Jiahui Wang Zhenyou Wang Shanna Zhuang Hui Wang ViT 51 23 0 19 May 2022
ETAD: Training Action Detection End to End on a Laptop Shuming Liu Mengmeng Xu Chen Zhao Xu Zhao Bernard Ghanem 44 6 0 14 May 2022
Weakly-Supervised Action Detection Guided by Audio Narration Keren Ye Adriana Kovashka 30 0 0 12 May 2022
Recurrent Dynamic Embedding for Video Object Segmentation Mingxing Li Liucheng Hu Zhiwei Xiong Bang Zhang Pan Pan Dong Liu VOS 61 61 0 08 May 2022
An Empirical Study on Activity Recognition in Long Surgical Videos Zhuohong He A. Mottaghi Aidean Sharghi Muhammad Abdullah Jamal Omid Mohareri 33 12 0 05 May 2022
BasicTAD: an Astounding RGB-Only Baseline for Temporal Action Detection Mingdong Yang Guo Chen Yin-Dong Zheng Tong Lu Limin Wang 36 45 0 05 May 2022
i-Code: An Integrative and Composable Multimodal Learning Framework Ziyi Yang Yuwei Fang Chenguang Zhu Reid Pryzant Dongdong Chen ... Bin Xiao Yuanxun Lu Takuya Yoshioka Michael Zeng Xuedong Huang 40 45 0 03 May 2022
A Deep Learning based No-reference Quality Assessment Model for UGC Videos Wei Sun Xiongkuo Min Wei Lu Guangtao Zhai 27 158 0 29 Apr 2022
HuMMan: Multi-Modal 4D Human Dataset for Versatile Sensing and Modeling Zhongang Cai Daxuan Ren Ailing Zeng Zhengyu Lin Tao Yu ... Fangzhou Hong Mingyuan Zhang Chen Change Loy Lei Yang Ziwei Liu 3DH 33 100 0 28 Apr 2022
The Wisdom of Crowds: Temporal Progressive Attention for Early Action Prediction Alexandros Stergiou Dima Damen AI4TS EgoV EDL 17 7 0 28 Apr 2022
Human-Centered Prior-Guided and Task-Dependent Multi-Task Representation Learning for Action Recognition Pre-Training Guanhong Wang Ke Lu Yang Zhou Zhanhao He Gaoang Wang SSL 19 3 0 27 Apr 2022
Temporal Relevance Analysis for Video Action Models Quanfu Fan Donghyun Kim Chun-Fu Chen Chen Stan Sclaroff Kate Saenko Sarah Adel Bargal FAtt 27 0 0 25 Apr 2022
Model-agnostic Multi-Domain Learning with Domain-Specific Adapters for Action Recognition Kazuki Omi Jun Kimata Toru Tamaki 21 7 0 15 Apr 2022
Calibrating Class Weights with Multi-Modal Information for Partial Video Domain Adaptation Xiyu Wang Yuecong Xu K. Mao Jianfei Yang 13 8 0 13 Apr 2022
E^2TAD: An Energy-Efficient Tracking-based Action Detector Xin Hu Zhenyu Wu Haoyuan Miao Siqi Fan Taiyu Long ... Pengcheng Pi Yi Wu Zhou Ren Zhangyang Wang G. Hua 24 2 0 09 Apr 2022
Frequency Selective Augmentation for Video Representation Learning Jinhyung Kim Taeoh Kim Minho Shim Dongyoon Han Dongyoon Wee Junmo Kim AI4TS 46 3 0 08 Apr 2022
Continual Inference: A Library for Efficient Online Inference with Deep Neural Networks in PyTorch Lukas Hedegaard Alexandros Iosifidis BDL 3DV CLL 15 6 0 07 Apr 2022
Tencent Text-Video Retrieval: Hierarchical Cross-Modal Interactions with Multi-Level Representations Jie Jiang Shaobo Min Weijie Kong Dihong Gong Hongfa Wang Zhifeng Li Wei Liu VLM 20 18 0 07 Apr 2022
Hierarchical Self-supervised Representation Learning for Movie Understanding Fanyi Xiao Kaustav Kundu Joseph Tighe Davide Modolo SSL 39 24 0 06 Apr 2022
An Empirical Study of End-to-End Temporal Action Detection Xiaolong Liu S. Bai Xiang Bai 19 58 0 06 Apr 2022
Long Movie Clip Classification with State-Space Video Models Md. Mohaiminul Islam Gedas Bertasius VLM 38 102 0 04 Apr 2022
TALLFormer: Temporal Action Localization with a Long-memory Transformer Feng Cheng Gedas Bertasius ViT 24 91 0 04 Apr 2022
ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for Action Recognition Jun Kimata Tomoya Nitta Toru Tamaki 29 10 0 01 Apr 2022