SlowFast Networks for Video Recognition

10 December 2018

Christoph Feichtenhofer

Papers citing "SlowFast Networks for Video Recognition"

50 / 530 papers shown

Title
Deformable Video Transformer Jue Wang Lorenzo Torresani ViT 22 28 0 31 Mar 2022
TubeDETR: Spatio-Temporal Video Grounding with Transformers Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 28 94 0 30 Mar 2022
ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal Action Localization Bo He Xitong Yang Le Kang Zhiyu Cheng Xingfa Zhou Abhinav Shrivastava 33 77 0 29 Mar 2022
Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities Fadime Sener Dibyadip Chatterjee Daniel Shelepov Kun He Dipika Singhania Robert Y. Wang Angela Yao VGen 19 204 0 28 Mar 2022
Class-Incremental Learning for Action Recognition in Videos Jaeyoo Park Minsoo Kang Bohyung Han CLL 24 52 0 25 Mar 2022
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training Zhan Tong Yibing Song Jue Wang Limin Wang ViT 137 1,124 0 23 Mar 2022
How Do You Do It? Fine-Grained Action Understanding with Pseudo-Adverbs Hazel Doughty Cees G. M. Snoek 25 19 0 23 Mar 2022
Look for the Change: Learning Object States and State-Modifying Actions from Untrimmed Web Videos Tomávs Souvcek Jean-Baptiste Alayrac Antoine Miech Ivan Laptev Josef Sivic 21 32 0 22 Mar 2022
Point3D: tracking actions as moving points with 3D CNNs Shentong Mo Jingfei Xia Xiaoqing Ellen Tan Bhiksha Raj 3DPC 20 5 0 20 Mar 2022
Gate-Shift-Fuse for Video Action Recognition Swathikiran Sudhakaran Sergio Escalera O. Lanz 22 22 0 16 Mar 2022
RCL: Recurrent Continuous Localization for Temporal Action Detection Qiang Wang Yanhao Zhang Yun Zheng Pan Pan ObjD 24 38 0 14 Mar 2022
Global2Local: A Joint-Hierarchical Attention for Video Captioning Chengpeng Dai Fuhai Chen Xiaoshuai Sun Rongrong Ji QiXiang Ye Yongjian Wu 17 1 0 13 Mar 2022
TFCNet: Temporal Fully Connected Networks for Static Unbiased Temporal Reasoning Shiwen Zhang AI4TS 19 9 0 11 Mar 2022
GrainSpace: A Large-scale Dataset for Fine-grained and Domain-adaptive Recognition of Cereal Grains Lei Fan Yiwen Ding Dongdong Fan Donglin Di M. Pagnucco Yang Song AI4TS 24 19 0 10 Mar 2022
OpenTAL: Towards Open Set Temporal Action Localization Wentao Bao Qi Yu Yu Kong EDL 30 26 0 10 Mar 2022
Learnable Irrelevant Modality Dropout for Multimodal Action Recognition on Modality-Specific Annotated Videos Saghir Alfasly Jian Lu C. Xu Yuru Zou 34 18 0 06 Mar 2022
Colar: Effective and Efficient Online Action Detection by Consulting Exemplars Le Yang Junwei Han Dingwen Zhang 21 35 0 02 Mar 2022
Temporal Perceiver: A General Architecture for Arbitrary Boundary Detection Jing Tan Yuhong Wang Gangshan Wu Limin Wang 43 14 0 01 Mar 2022
Motion-driven Visual Tempo Learning for Video-based Action Recognition Yuanzhong Liu Junsong Yuan Zhigang Tu 19 58 0 24 Feb 2022
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 82 213 0 18 Feb 2022
ActionFormer: Localizing Moments of Actions with Transformers Chen-Da Liu-Zhang Jianxin Wu Yin Li ViT 25 328 0 16 Feb 2022
HAKE: A Knowledge Engine Foundation for Human Activity Understanding Yong-Lu Li Xinpeng Liu Xiaoqian Wu Yizhuo Li Zuoyu Qiu Liang Xu Yue Xu Haoshu Fang Cewu Lu 32 38 0 14 Feb 2022
Should I take a walk? Estimating Energy Expenditure from Video Data Kunyu Peng Alina Roitberg Kailun Yang Jiaming Zhang Rainer Stiefelhagen 11 4 0 01 Feb 2022
Learning To Recognize Procedural Activities with Distant Supervision Xudong Lin Fabio Petroni Gedas Bertasius Marcus Rohrbach Shih-Fu Chang Lorenzo Torresani 32 82 0 26 Jan 2022
UniFormer: Unifying Convolution and Self-attention for Visual Recognition Kunchang Li Yali Wang Junhao Zhang Peng Gao Guanglu Song Yu Liu Hongsheng Li Yu Qiao ViT 150 361 0 24 Jan 2022
Action Keypoint Network for Efficient Video Recognition Xu Chen Yahong Han Xiaohan Wang Yifang Sun Yi Yang 3DPC 24 6 0 17 Jan 2022
Video Transformers: A Survey Javier Selva A. S. Johansen Sergio Escalera Kamal Nasrollahi T. Moeslund Albert Clapés ViT 22 103 0 16 Jan 2022
Real-World Graph Convolution Networks (RW-GCNs) for Action Recognition in Smart Video Surveillance Justin Sanchez Christopher Neff Hamed Tabkhi GNN 30 9 0 15 Jan 2022
UniFormer: Unified Transformer for Efficient Spatiotemporal Representation Learning Kunchang Li Yali Wang Peng Gao Guanglu Song Yu Liu Hongsheng Li Yu Qiao ViT 38 238 0 12 Jan 2022
OCSampler: Compressing Videos to One Clip with Single-step Sampling Jintao Lin Haodong Duan Kai-xiang Chen Dahua Lin Limin Wang 32 24 0 12 Jan 2022
Multiview Transformers for Video Recognition Shen Yan Xuehan Xiong Anurag Arnab Zhichao Lu Mi Zhang Chen Sun Cordelia Schmid ViT 26 212 0 12 Jan 2022
Recur, Attend or Convolve? On Whether Temporal Modeling Matters for Cross-Domain Robustness in Action Recognition Sofia Broomé Ernest Pokropek Boyu Li Hedvig Kjellström 16 7 0 22 Dec 2021
Precondition and Effect Reasoning for Action Recognition Hongsang Yoo Haopeng Li Qiuhong Ke Liangchen Liu Rui Zhang CML 36 4 0 19 Dec 2021
Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition Yinghao Xu Fangyun Wei Xiao Sun Ceyuan Yang Yujun Shen Bo Dai Bolei Zhou Stephen Lin VLM 25 52 0 17 Dec 2021
Distillation of Human-Object Interaction Contexts for Action Recognition Muna Almushyti Frederick W. Li 31 3 0 17 Dec 2021
Masked Feature Prediction for Self-Supervised Visual Pre-Training Chen Wei Haoqi Fan Saining Xie Chaoxia Wu Alan Yuille Christoph Feichtenhofer ViT 83 655 0 16 Dec 2021
Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition Benjia Zhou Pichao Wang Jun Wan Yanyan Liang Fan Wang Du Zhang Zhen Lei Hao Li Rong Jin 33 29 0 16 Dec 2021
Temporal Shuffling for Defending Deep Action Recognition Models against Adversarial Attacks Jaehui Hwang Huan Zhang Jun-Ho Choi Cho-Jui Hsieh Jong-Seok Lee AAML 17 5 0 15 Dec 2021
SVIP: Sequence VerIfication for Procedures in Videos Yichen Qian Weixin Luo Dongze Lian Xu Tang P. Zhao Shenghua Gao ViT 23 17 0 13 Dec 2021
Video as Conditional Graph Hierarchy for Multi-Granular Question Answering Junbin Xiao Angela Yao Zhiyuan Liu Yicong Li Wei Ji Tat-Seng Chua 30 111 0 12 Dec 2021
Discrete neural representations for explainable anomaly detection Stanislaw Szymanowicz James Charles R. Cipolla AAML AI4TS FAtt 19 20 0 10 Dec 2021
Cross-Modal Transferable Adversarial Attacks from Images to Videos Zhipeng Wei Jingjing Chen Zuxuan Wu Yu-Gang Jiang AAML 21 38 0 10 Dec 2021
Auto-X3D: Ultra-Efficient Video Understanding via Finer-Grained Neural Architecture Search Yifan Jiang Xinyu Gong Junru Wu Humphrey Shi Zhicheng Yan Zhangyang Wang VGen 52 1 0 09 Dec 2021
DualFormer: Local-Global Stratified Transformer for Efficient Video Recognition Yuxuan Liang Pan Zhou Roger Zimmermann Shuicheng Yan ViT 23 21 0 09 Dec 2021
Exploring Temporal Granularity in Self-Supervised Video Representation Learning Rui Qian Yeqing Li Liangzhe Yuan Boqing Gong Ting Liu Matthew A. Brown Serge J. Belongie Ming-Hsuan Yang Hartwig Adam Yin Cui AI4TS 54 6 0 08 Dec 2021
MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection Rui Dai Srijan Das Kumara Kahatapitiya Michael S. Ryoo F. Brémond ViT 42 73 0 07 Dec 2021
DCAN: Improving Temporal Action Detection via Dual Context Aggregation Guo Chen Yin-Dong Zheng Limin Wang Tong Lu AI4TS 27 70 0 07 Dec 2021
Gesture Recognition with a Skeleton-Based Keyframe Selection Module Yunsoo Kim Hyun Myung SLR 25 1 0 03 Dec 2021
BEVT: BERT Pretraining of Video Transformers Rui Wang Dongdong Chen Zuxuan Wu Yinpeng Chen Xiyang Dai Mengchen Liu Yu-Gang Jiang Luowei Zhou Lu Yuan ViT 36 203 0 02 Dec 2021
MViTv2: Improved Multiscale Vision Transformers for Classification and Detection Yanghao Li Chaoxia Wu Haoqi Fan K. Mangalam Bo Xiong Jitendra Malik Christoph Feichtenhofer ViT 48 677 0 02 Dec 2021