TSM: Temporal Shift Module for Efficient Video Understanding

20 November 2018

Chuang Gan

Song Han

Papers citing "TSM: Temporal Shift Module for Efficient Video Understanding"

50 / 249 papers shown

Title
TSA-Net: Tube Self-Attention Network for Action Quality Assessment Shunli Wang Dingkang Yang Peng Zhai Chixiao Chen Lihua Zhang ViT 24 63 0 11 Jan 2022
Glance and Focus Networks for Dynamic Visual Recognition Gao Huang Yulin Wang Kangchen Lv Haojun Jiang Wenhui Huang Pengfei Qi S. Song 3DH 71 49 0 09 Jan 2022
Vision Transformer for Small-Size Datasets Seung Hoon Lee Seunghyun Lee B. Song ViT 10 222 0 27 Dec 2021
Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition Yinghao Xu Fangyun Wei Xiao Sun Ceyuan Yang Yujun Shen Bo Dai Bolei Zhou Stephen Lin VLM 23 52 0 17 Dec 2021
Masked Feature Prediction for Self-Supervised Visual Pre-Training Chen Wei Haoqi Fan Saining Xie Chaoxia Wu Alan Yuille Christoph Feichtenhofer ViT 83 655 0 16 Dec 2021
SVIP: Sequence VerIfication for Procedures in Videos Yichen Qian Weixin Luo Dongze Lian Xu Tang P. Zhao Shenghua Gao ViT 21 17 0 13 Dec 2021
Auto-X3D: Ultra-Efficient Video Understanding via Finer-Grained Neural Architecture Search Yifan Jiang Xinyu Gong Junru Wu Humphrey Shi Zhicheng Yan Zhangyang Wang VGen 49 1 0 09 Dec 2021
DualFormer: Local-Global Stratified Transformer for Efficient Video Recognition Yuxuan Liang Pan Zhou Roger Zimmermann Shuicheng Yan ViT 23 21 0 09 Dec 2021
Exploring Temporal Granularity in Self-Supervised Video Representation Learning Rui Qian Yeqing Li Liangzhe Yuan Boqing Gong Ting Liu Matthew A. Brown Serge J. Belongie Ming-Hsuan Yang Hartwig Adam Yin Cui AI4TS 54 6 0 08 Dec 2021
DCAN: Improving Temporal Action Detection via Dual Context Aggregation Guo Chen Yin-Dong Zheng Limin Wang Tong Lu AI4TS 24 70 0 07 Dec 2021
TCGL: Temporal Contrastive Graph for Self-supervised Video Representation Learning Yang Liu Keze Wang Lingbo Liu Hao Lan Liang Lin SSL AI4TS 48 113 0 07 Dec 2021
BEVT: BERT Pretraining of Video Transformers Rui Wang Dongdong Chen Zuxuan Wu Yinpeng Chen Xiyang Dai Mengchen Liu Yu-Gang Jiang Luowei Zhou Lu Yuan ViT 36 203 0 02 Dec 2021
Video-Text Pre-training with Learned Regions Rui Yan Mike Zheng Shou Yixiao Ge Alex Jinpeng Wang Xudong Lin Guanyu Cai Jinhui Tang 30 23 0 02 Dec 2021
PolyViT: Co-training Vision Transformers on Images, Videos and Audio Valerii Likhosherstov Anurag Arnab K. Choromanski Mario Lucic Yi Tay Adrian Weller Mostafa Dehghani ViT 35 73 0 25 Nov 2021
PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference Transformer Zitong Yu Yuming Shen Jingang Shi Hengshuang Zhao Philip H. S. Torr Guoying Zhao ViT MedIm 134 167 0 23 Nov 2021
Efficient Video Transformers with Spatial-Temporal Token Selection Junke Wang Xitong Yang Hengduo Li Li Liu Zuxuan Wu Yu-Gang Jiang ViT 21 63 0 23 Nov 2021
M2A: Motion Aware Attention for Accurate Video Action Recognition Brennan Gebotys Alexander Wong David A Clausi 27 3 0 18 Nov 2021
Evaluating Transformers for Lightweight Action Recognition Raivo Koot Markus Hennerbichler Haiping Lu ViT 28 8 0 18 Nov 2021
A Survey of Visual Transformers Yang Liu Yao Zhang Yixin Wang Feng Hou Jin Yuan Jiang Tian Yang Zhang Zhongchao Shi Jianping Fan Zhiqiang He 3DGS ViT 71 330 0 11 Nov 2021
Sequence-to-Sequence Modeling for Action Identification at High Temporal Resolution Aakash Kaku Kangning Liu A. Parnandi H. Rajamohan Kannan Venkataramanan Anita Venkatesan Audre Wirtanen Natasha Pandit Heidi M. Schambra C. Fernandez‐Granda 21 5 0 03 Nov 2021
Relational Self-Attention: What's Missing in Attention for Video Understanding Manjin Kim Heeseung Kwon Chunyu Wang Suha Kwak Minsu Cho ViT 27 28 0 02 Nov 2021
Gradient Frequency Modulation for Visually Explaining Video Understanding Models Xinmiao Lin Wentao Bao Matthew Wright Yu Kong FAtt AAML 22 2 0 01 Nov 2021
Backdoor Pre-trained Models Can Transfer to All Lujia Shen S. Ji Xuhong Zhang Jinfeng Li Jing Chen Jie Shi Chengfang Fang Jianwei Yin Ting Wang AAML SILM 31 117 0 30 Oct 2021
RF-Net: a Unified Meta-learning Framework for RF-enabled One-shot Human Activity Recognition Shuya Ding Zhe Chen Tianyue Zheng Jun-Jie Luo 18 111 0 29 Oct 2021
Temporal-attentive Covariance Pooling Networks for Video Recognition Zilin Gao Qilong Wang Bingbing Zhang Q. Hu P. Li 21 24 0 27 Oct 2021
RCNet: Reverse Feature Pyramid and Cross-scale Shift Network for Object Detection Zhuofan Zong Qianggang Cao B. Leng ObjD 32 13 0 23 Oct 2021
TEAM-Net: Multi-modal Learning for Video Action Recognition with Partial Decoding Zhengwei Wang Qi She A. Smolic 21 9 0 17 Oct 2021
Object-Region Video Transformers Roei Herzig Elad Ben-Avraham K. Mangalam Amir Bar Gal Chechik Anna Rohrbach Trevor Darrell Amir Globerson ViT 21 82 0 13 Oct 2021
TAda! Temporally-Adaptive Convolutions for Video Understanding Ziyuan Huang Shiwei Zhang Liang Pan Zhiwu Qing Mingqian Tang Ziwei Liu M. Ang 40 49 0 12 Oct 2021
Joint Learning On The Hierarchy Representation for Fine-Grained Human Action Recognition M. C. Leong Hui Li Tan Haosong Zhang Liyuan Li Feng Lin J. Lim 27 10 0 12 Oct 2021
SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign Language Recognition Hezhen Hu Weichao Zhao Wen-gang Zhou Yuechen Wang Houqiang Li ViT 22 63 0 11 Oct 2021
Spatio-Temporal Video Representation Learning for AI Based Video Playback Style Prediction Rishubh Parihar Gaurav Ramola Ranajit Saha Raviprasad Kini Aniket Rege S. Velusamy 26 1 0 03 Oct 2021
Information Elevation Network for Fast Online Action Detection Sunah Min Jinyoung Moon 13 0 0 28 Sep 2021
The First Vision For Vitals (V4V) Challenge for Non-Contact Video-Based Physiological Estimation Ambareesh Revanur Zhihua Li U. Ciftci L. Yin László A. Jeni 47 36 0 22 Sep 2021
Asymmetric 3D Context Fusion for Universal Lesion Detection Jiancheng Yang Yi He Kaiming Kuang Zudi Lin Hanspeter Pfister Bingbing Ni 3DPC MedIm 27 22 0 17 Sep 2021
ActionCLIP: A New Paradigm for Video Action Recognition Mengmeng Wang Jiazheng Xing Yong Liu VLM 149 362 0 17 Sep 2021
Spatiotemporal Inconsistency Learning for DeepFake Video Detection Zhihao Gu Yang Chen Taiping Yao Shouhong Ding Jilin Li Feiyue Huang Lizhuang Ma 14 149 0 04 Sep 2021
Searching for Two-Stream Models in Multivariate Space for Video Recognition Xinyu Gong Heng Wang Zheng Shou Matt Feiszli Zhangyang Wang Zhicheng Yan 24 9 0 30 Aug 2021
FOVEA: Foveated Image Magnification for Autonomous Navigation Chittesh Thavamani Mengtian Li N. Cebron Deva Ramanan 27 32 0 27 Aug 2021
MM-ViT: Multi-Modal Video Transformer for Compressed Video Action Recognition Jiawei Chen C. Ho ViT 24 76 0 20 Aug 2021
Spatial-Temporal Transformer for Dynamic Scene Graph Generation Yuren Cong Wentong Liao H. Ackermann Bodo Rosenhahn M. Yang ViT 11 122 0 26 Jul 2021
Adaptive Recursive Circle Framework for Fine-grained Action Recognition Hanxi Lin Xinxiao Wu Jiebo Luo 25 1 0 25 Jul 2021
EAN: Event Adaptive Network for Enhanced Action Recognition Yuan Tian Yichao Yan Guangtao Zhai G. Guo Zhiyong Gao 29 41 0 22 Jul 2021
Evidential Deep Learning for Open Set Action Recognition Wentao Bao Qi Yu Yu Kong CML EDL 8 135 0 21 Jul 2021
CLDA: Contrastive Learning for Semi-Supervised Domain Adaptation Ankit Singh 26 108 0 30 Jun 2021
Space-time Mixing Attention for Video Transformer Adrian Bulat Juan-Manuel Perez-Rua Swathikiran Sudhakaran Brais Martínez Georgios Tzimiropoulos ViT 27 124 0 10 Jun 2021
CT-Net: Channel Tensorization Network for Video Classification Kunchang Li Xianhang Li Yali Wang Jun Wang Yu Qiao ViT 22 55 0 03 Jun 2021
DSANet: Dynamic Segment Aggregation Network for Video-Level Representation Learning Wenhao Wu Yuxiang Zhao Yanwu Xu Xiao Tan Dongliang He ... Jinxing Ye Yingying Li Mingde Yao Zichao Dong Yifeng Shi AI4TS 22 27 0 25 May 2021
Temporal Action Proposal Generation with Transformers Lining Wang Haosen Yang Wenhao Wu H. Yao Hujie Huang ViT 27 27 0 25 May 2021
Coarse to Fine Multi-Resolution Temporal Convolutional Network Dipika Singhania R. Rahaman Angela Yao AI4TS 16 55 0 23 May 2021