TSM: Temporal Shift Module for Efficient Video Understanding

20 November 2018

Chuang Gan

Song Han

Papers citing "TSM: Temporal Shift Module for Efficient Video Understanding"

50 / 256 papers shown

Title
What Can Simple Arithmetic Operations Do for Temporal Modeling? Wenhao Wu Yuxin Song Zhun Sun Jingdong Wang Chang Xu Wanli Ouyang 40 8 0 18 Jul 2023
Gait Data Augmentation using Physics-Based Biomechanical Simulation Mritula Chandrasekaran J. Francik Dimitrios Makris 30 3 0 16 Jul 2023
How can objects help action recognition? Xingyi Zhou Anurag Arnab Chen Sun Cordelia Schmid 35 14 0 20 Jun 2023
Is end-to-end learning enough for fitness activity recognition? Antoine Mercier Guillaume Berger Sunny Panchal Florian Letsch Cornelius Boehm Nahua Kang Ingo Bax Roland Memisevic 23 2 0 14 May 2023
Improve Video Representation with Temporal Adversarial Augmentation Jinhao Duan Quanfu Fan Hao-Ran Cheng Xiaoshuang Shi Kaidi Xu AAML AI4TS ViT 25 2 0 28 Apr 2023
AssemblyHands: Towards Egocentric Activity Understanding via 3D Hand Pose Estimation Takehiko Ohkawa Kun He Fadime Sener Tomás Hodan Luan Tran Cem Keskin 19 38 0 24 Apr 2023
Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation Jie An Songyang Zhang Harry Yang Sonal Gupta Jia-Bin Huang Jiebo Luo Xiaoyue Yin DiffM VGen 29 106 0 17 Apr 2023
Efficient Video Action Detection with Token Dropout and Context Refinement Lei Chen Zhan Tong Yibing Song Gangshan Wu Limin Wang 36 14 0 17 Apr 2023
Isolated Sign Language Recognition based on Tree Structure Skeleton Images David Laines G. Bejarano M. González-Mendoza Gilberto Ochoa-Ruiz SLR 24 12 0 10 Apr 2023
Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting Syed Talal Wasim Muzammal Naseer Salman Khan F. Khan M. Shah VLM VPVLM 30 73 0 06 Apr 2023
VicTR: Video-conditioned Text Representations for Activity Recognition Kumara Kahatapitiya Anurag Arnab Arsha Nagrani Michael S. Ryoo 33 19 0 05 Apr 2023
MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot Action Recognition Xiang Wang Shiwei Zhang Zhiwu Qing Changxin Gao Yingya Zhang Deli Zhao Nong Sang 19 40 0 03 Apr 2023
Decomposed Cross-modal Distillation for RGB-based Temporal Action Detection Pilhyeon Lee Taeoh Kim Minho Shim Dongyoon Wee H. Byun 30 11 0 30 Mar 2023
System-status-aware Adaptive Network for Online Streaming Video Understanding Lin Geng Foo Jia Gong Zhipeng Fan J. Liu AI4TS 32 15 0 28 Mar 2023
AIM: Adapting Image Models for Efficient Video Action Recognition Taojiannan Yang Yi Zhu Yusheng Xie Aston Zhang C. L. P. Chen Mu Li ViT 49 144 0 06 Feb 2023
CMAE-V: Contrastive Masked Autoencoders for Video Action Recognition Cheng Lu Xiaojie Jin Zhicheng Huang Qibin Hou Mingg-Ming Cheng Jiashi Feng 37 8 0 15 Jan 2023
Triple-stream Deep Metric Learning of Great Ape Behavioural Actions Otto Brookes Majid Mirmehdi H. Kühl T. Burghardt 22 14 0 06 Jan 2023
HierVL: Learning Hierarchical Video-Language Embeddings Kumar Ashutosh Rohit Girdhar Lorenzo Torresani Kristen Grauman VLM AI4TS 22 51 0 05 Jan 2023
Ego-Only: Egocentric Action Detection without Exocentric Transferring Huiyu Wang Mitesh Singh Lorenzo Torresani EgoV 72 23 0 03 Jan 2023
Look, Listen, and Attack: Backdoor Attacks Against Video Action Recognition Hasan Hammoud Shuming Liu Mohammad Alkhrashi Fahad Albalawi Bernard Ghanem AAML 32 8 0 03 Jan 2023
Efficient Robustness Assessment via Adversarial Spatial-Temporal Focus on Videos Xingxing Wei Songping Wang Huanqian Yan AAML 26 15 0 03 Jan 2023
An end-to-end multi-scale network for action prediction in videos Xiaofan Liu Jianqin Yin Yuanxi Sun Zhicheng Zhang Jin Tang 19 0 0 31 Dec 2022
StepNet: Spatial-temporal Part-aware Network for Isolated Sign Language Recognition Xi Shen Zhedong Zheng Yi Yang SLR 24 13 0 25 Dec 2022
A Survey on Human Action Recognition Zhou Shuchang 29 0 0 20 Dec 2022
Gait Recognition Using 3-D Human Body Shape Inference Haidong Zhu Zhao-Heng Zheng Ramkant Nevatia CVBM 3DH 23 23 0 18 Dec 2022
Inductive Attention for Video Action Anticipation Tsung-Ming Tai G. Fiameni Cheng-Kuang Lee Simon See O. Lanz 36 1 0 17 Dec 2022
Towards Smooth Video Composition Qihang Zhang Ceyuan Yang Yujun Shen Yinghao Xu Bolei Zhou VGen 41 14 0 14 Dec 2022
PromptonomyViT: Multi-Task Prompt Learning Improves Video Transformers using Synthetic Scene Data Roei Herzig Ofir Abramovich Elad Ben-Avraham Assaf Arbelle Leonid Karlinsky Ariel Shamir Trevor Darrell Amir Globerson 36 16 0 08 Dec 2022
DroneAttention: Sparse Weighted Temporal Attention for Drone-Camera Based Activity Recognition Santosh Kumar Yadav Achleshwar Luthra Esha Pahwa K. Tiwari Heena Rathore Hari Mohan Pandey Peter Corcoran 31 12 0 07 Dec 2022
VLG: General Video Recognition with Web Textual Knowledge Jintao Lin Zhaoyang Liu Wenhai Wang Wayne Wu Limin Wang 39 0 0 03 Dec 2022
Masked Contrastive Pre-Training for Efficient Video-Text Retrieval Fangxun Shu Biaolong Chen Yue Liao Shuwen Xiao Wenyu Sun Xiaobo Li Yousong Zhu Jinqiao Wang Si Liu CLIP 25 11 0 02 Dec 2022
FakeOut: Leveraging Out-of-domain Self-supervision for Multi-modal Video Deepfake Detection Gil Knafo Ohad Fried 21 5 0 01 Dec 2022
Multilingual Communication System with Deaf Individuals Utilizing Natural and Visual Languages Tuan-Luc Huynh Khoi-Nguyen Nguyen-Ngoc Chi-Bien Chu Minh-Triet Tran Trung-Nghia Le SLR 13 0 0 01 Dec 2022
Video Test-Time Adaptation for Action Recognition Wei Lin M. Jehanzeb Mirza Mateusz Koziñski Horst Possegger Hilde Kuehne Horst Bischof TTA 39 31 0 24 Nov 2022
Can lies be faked? Comparing low-stakes and high-stakes deception video datasets from a Machine Learning perspective M. Camara Adriana Postal Tomas Henrique Maul Gustavo Henrique Paetzold 11 7 0 23 Nov 2022
Dynamic Appearance: A Video Representation for Action Recognition with Joint Training Guoxi Huang A. Bors 24 1 0 23 Nov 2022
Look More but Care Less in Video Recognition Yitian Zhang Yue Bai Haiquan Wang Yi Xu Yun Fu 27 9 0 18 Nov 2022
UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer Kunchang Li Yali Wang Yinan He Yizhuo Li Yi Wang Limin Wang Yu Qiao ViT 30 106 0 17 Nov 2022
Exploring State Change Capture of Heterogeneous Backbones @ Ego4D Hands and Objects Challenge 2022 Yin-Dong Zheng Guo Chen Jiahao Wang Tong Lu Liming Wang 29 0 0 16 Nov 2022
Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in Temporal Action Localization Tasks Hyolim Kang Hanjung Kim Joungbin An Minsu Cho Seon Joo Kim 25 5 0 11 Nov 2022
SWTF: Sparse Weighted Temporal Fusion for Drone-Based Activity Recognition Santosh Kumar Yadav Esha Pahwa Achleshwar Luthra K. Tiwari Hari Mohan Pandey Peter Corcoran 15 4 0 10 Nov 2022
Bringing Online Egocentric Action Recognition into the wild Gabriele Goletto M. Planamente Barbara Caputo Giuseppe Averta EgoV 19 3 0 06 Nov 2022
GliTr: Glimpse Transformers with Spatiotemporal Consistency for Online Action Prediction Samrudhdhi B. Rangrej Kevin J Liang Tal Hassner James J. Clark 27 3 0 24 Oct 2022
Semantic Video Moments Retrieval at Scale: A New Task and a Baseline Na Li 18 0 0 15 Oct 2022
Motion Aware Self-Supervision for Generic Event Boundary Detection Ayush Rai Tarun Krishna J. Dietlmeier Kevin McGuinness A. Smeaton Noel E. O'Connor 26 2 0 11 Oct 2022
DeViT: Deformed Vision Transformers in Video Inpainting Jiayin Cai Changlin Li Xin Tao Chun Yuan Yu-Wing Tai ViT 30 12 0 28 Sep 2022
MECCANO: A Multimodal Egocentric Dataset for Humans Behavior Understanding in the Industrial-like Domain Francesco Ragusa Antonino Furnari G. Farinella EgoV 40 23 0 19 Sep 2022
MAiVAR: Multimodal Audio-Image and Video Action Recognizer Muhammad Bilal Shaikh Douglas Chai S. Islam Naveed Akhtar 27 5 0 11 Sep 2022
Gait Recognition in the Wild with Multi-hop Temporal Switch Jinkai Zheng Xinchen Liu Xiaoyan Gu Yaoqi Sun Chuang Gan Jiyong Zhang Wu Liu C. Yan CVBM 16 31 0 01 Sep 2022
Efficient Attention-free Video Shift Transformers Adrian Bulat Brais Martínez Georgios Tzimiropoulos ViT 29 1 0 23 Aug 2022