TSM: Temporal Shift Module for Efficient Video Understanding

20 November 2018

Chuang Gan

Song Han

Papers citing "TSM: Temporal Shift Module for Efficient Video Understanding"

50 / 249 papers shown

Title
Vision-Centric BEV Perception: A Survey Yuexin Ma Tai Wang Xuyang Bai Huitong Yang Yuenan Hou Yaming Wang Yu Qiao Ruigang Yang Dinesh Manocha Xinge Zhu 43 129 0 04 Aug 2022
Video Question Answering with Iterative Video-Text Co-Tokenization A. Piergiovanni K. Morton Weicheng Kuo Michael S. Ryoo A. Angelova 20 18 0 01 Aug 2022
Bodily Behaviors in Social Interaction: Novel Annotations and State-of-the-Art Evaluation Michal Balazia Philippe Muller Ákos Levente Tánczos A. V. Liechtenstein Franccois Brémond 17 22 0 26 Jul 2022
MAR: Masked Autoencoders for Efficient Action Recognition Zhiwu Qing Shiwei Zhang Ziyuan Huang Xiang Wang Yuehuang Wang Yiliang Lv Changxin Gao Nong Sang 21 42 0 24 Jul 2022
Temporal Saliency Query Network for Efficient Video Recognition Boyang Xia Zhihao Wang Wenhao Wu Haoran Wang Jungong Han 45 15 0 21 Jul 2022
Is an Object-Centric Video Representation Beneficial for Transfer? Chuhan Zhang Ankush Gupta Andrew Zisserman ViT 31 26 0 20 Jul 2022
ERA: Expert Retrieval and Assembly for Early Action Prediction Lin Geng Foo Tianjiao Li Hossein Rahmani Qiuhong Ke J. Liu 19 15 0 20 Jul 2022
Human-to-Robot Imitation in the Wild Shikhar Bahl Abhi Gupta Deepak Pathak 16 163 0 19 Jul 2022
Time Is MattEr: Temporal Self-supervision for Video Transformers Sukmin Yun Jaehyung Kim Dongyoon Han Hwanjun Song Jung-Woo Ha Jinwoo Shin ViT 15 12 0 19 Jul 2022
TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval Yuqi Liu Pengfei Xiong Luhui Xu Shengming Cao Qin Jin 25 113 0 16 Jul 2022
Real-time Streaming Video Denoising with Bidirectional Buffers Chenyang Qi Junming Chen Xin Yang Qifeng Chen 16 20 0 14 Jul 2022
VidConv: A modernized 2D ConvNet for Efficient Video Recognition Chuong H. Nguyen Su Huynh Vinh Nguyen Ngoc-Khanh Nguyen ViT 27 3 0 08 Jul 2022
Large-scale Robustness Analysis of Video Action Recognition Models Madeline Chantry Schiappa Naman Biyani Prudvi Kamtam Shruti Vyas Hamid Palangi Vibhav Vineet Y. S. Rawat AAML 29 24 0 04 Jul 2022
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition Wenhao Wu Zhun Sun Wanli Ouyang VLM 99 93 0 04 Jul 2022
DFGC 2022: The Second DeepFake Game Competition Bo Peng Wei Xiang Yue Jiang Wei Wang Jing Dong Zhen Sun Zhen Lei Siwei Lyu 19 10 0 30 Jun 2022
Weakly-Supervised Temporal Action Localization by Progressive Complementary Learning Jiachen Du Jialuo Feng Kun-Yu Lin Fa-Ting Hong Xiao-Ming Wu Zhongang Qi Ying Shan Weihao Zheng 34 5 0 22 Jun 2022
Context-aware Proposal Network for Temporal Action Detection Xiang Wang H. Zhang Shiwei Zhang Changxin Gao Yuanjie Shao Nong Sang 11 2 0 18 Jun 2022
Self-Supervised Learning for Videos: A Survey Madeline Chantry Schiappa Y. S. Rawat M. Shah SSL 34 131 0 18 Jun 2022
MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing Zhaofan Qiu Ting Yao Chong-Wah Ngo Tao Mei ViT 24 15 0 13 Jun 2022
Revisiting the "Video" in Video-Language Understanding S. Buch Cristobal Eyzaguirre Adrien Gaidon Jiajun Wu L. Fei-Fei Juan Carlos Niebles 27 156 0 03 Jun 2022
A Survey on Video Action Recognition in Sports: Datasets, Methods and Applications Fei Wu Qingzhong Wang Jian Bian Haoyi Xiong Ning Ding Feixiang Lu Junqing Cheng Dejing Dou AI4TS 24 52 0 02 Jun 2022
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang DiffM 254 565 0 29 May 2022
Learning What and Where: Disentangling Location and Identity Tracking Without Supervision Manuel Traub S. Otte Tobias Menge Matthias Karlbauer Jannik Thummel Martin Volker Butz 31 20 0 26 May 2022
ETAD: Training Action Detection End to End on a Laptop Shuming Liu Mengmeng Xu Chen Zhao Xu Zhao Bernard Ghanem 44 6 0 14 May 2022
BasicTAD: an Astounding RGB-Only Baseline for Temporal Action Detection Mingdong Yang Guo Chen Yin-Dong Zheng Tong Lu Limin Wang 36 45 0 05 May 2022
TransRank: Self-supervised Video Representation Learning via Ranking-based Transformation Recognition Haodong Duan Nanxuan Zhao Kai-xiang Chen Dahua Lin ViT AI4TS 31 19 0 04 May 2022
Tragedy Plus Time: Capturing Unintended Human Activities from Weakly-labeled Videos Arnav Chakravarthy Zhiyuan Fang Yezhou Yang 29 2 0 28 Apr 2022
AFSC: Adaptive Fourier Space Compression for Anomaly Detection Haote Xu Yunlong Zhang Liyan Sun Chenxin Li Yue Huang Xinghao Ding MedIm 29 11 0 17 Apr 2022
Towards An End-to-End Framework for Flow-Guided Video Inpainting Z. Li Cheng Lu Jia Qin Chunle Guo Mingg-Ming Cheng 41 149 0 06 Apr 2022
SALISA: Saliency-based Input Sampling for Efficient Video Object Detection B. Bejnordi A. Habibian Fatih Porikli Amir Ghodrati 42 12 0 05 Apr 2022
TALLFormer: Temporal Action Localization with a Long-memory Transformer Feng Cheng Gedas Bertasius ViT 24 91 0 04 Apr 2022
Deformable Video Transformer Jue Wang Lorenzo Torresani ViT 22 28 0 31 Mar 2022
Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities Fadime Sener Dibyadip Chatterjee Daniel Shelepov Kun He Dipika Singhania Robert Y. Wang Angela Yao VGen 19 204 0 28 Mar 2022
Class-Incremental Learning for Action Recognition in Videos Jaeyoo Park Minsoo Kang Bohyung Han CLL 21 52 0 25 Mar 2022
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training Zhan Tong Yibing Song Jue Wang Limin Wang ViT 137 1,122 0 23 Mar 2022
How Do You Do It? Fine-Grained Action Understanding with Pseudo-Adverbs Hazel Doughty Cees G. M. Snoek 25 19 0 23 Mar 2022
All in One: Exploring Unified Video-Language Pre-training Alex Jinpeng Wang Yixiao Ge Rui Yan Yuying Ge Xudong Lin Guanyu Cai Jianping Wu Ying Shan Xiaohu Qie Mike Zheng Shou 16 200 0 14 Mar 2022
Motion-driven Visual Tempo Learning for Video-based Action Recognition Yuanzhong Liu Junsong Yuan Zhigang Tu 19 58 0 24 Feb 2022
Should I take a walk? Estimating Energy Expenditure from Video Data Kunyu Peng Alina Roitberg Kailun Yang Jiaming Zhang Rainer Stiefelhagen 11 4 0 01 Feb 2022
UniFormer: Unifying Convolution and Self-attention for Visual Recognition Kunchang Li Yali Wang Junhao Zhang Peng Gao Guanglu Song Yu Liu Hongsheng Li Yu Qiao ViT 150 361 0 24 Jan 2022
Action Keypoint Network for Efficient Video Recognition Xu Chen Yahong Han Xiaohan Wang Yifang Sun Yi Yang 3DPC 24 6 0 17 Jan 2022
Video Transformers: A Survey Javier Selva A. S. Johansen Sergio Escalera Kamal Nasrollahi T. Moeslund Albert Clapés ViT 22 103 0 16 Jan 2022
Towards Zero-shot Sign Language Recognition Yunus Can Bilge R. G. Cinbis Nazli Ikizler-Cinbis SLR 17 36 0 15 Jan 2022
Real-World Graph Convolution Networks (RW-GCNs) for Action Recognition in Smart Video Surveillance Justin Sanchez Christopher Neff Hamed Tabkhi GNN 30 9 0 15 Jan 2022
Argus++: Robust Real-time Activity Detection for Unconstrained Video Streams with Overlapping Cube Proposals Lijun Yu Yijun Qian Wenhe Liu Alexander G. Hauptmann 14 13 0 14 Jan 2022
UniFormer: Unified Transformer for Efficient Spatiotemporal Representation Learning Kunchang Li Yali Wang Peng Gao Guanglu Song Yu Liu Hongsheng Li Yu Qiao ViT 38 238 0 12 Jan 2022
OCSampler: Compressing Videos to One Clip with Single-step Sampling Jintao Lin Haodong Duan Kai-xiang Chen Dahua Lin Limin Wang 32 24 0 12 Jan 2022
Multiview Transformers for Video Recognition Shen Yan Xuehan Xiong Anurag Arnab Zhichao Lu Mi Zhang Chen Sun Cordelia Schmid ViT 26 212 0 12 Jan 2022
MobilePhys: Personalized Mobile Camera-Based Contactless Physiological Sensing Xin Liu Yuntao wang S. Xie Xiaoyu Zhang Zixian Ma Daniel J. McDuff Shwetak N. Patel 28 10 0 11 Jan 2022
Representing Videos as Discriminative Sub-graphs for Action Recognition Dong Li Zhaofan Qiu Yingwei Pan Ting Yao Houqiang Li Tao Mei 31 25 0 11 Jan 2022