Spatiotemporal Residual Networks for Video Action Recognition

7 November 2016

Christoph Feichtenhofer

A. Pinz

Richard P. Wildes

ArXiv (abs)PDF HTML

Papers citing "Spatiotemporal Residual Networks for Video Action Recognition"

50 / 273 papers shown

Temporal vs. Spatial: Comparing DINOv3 and V-JEPA2 Feature Representations for Video Action Analysis

Sai Varun Kodathala

Rakesh Vunnam

129

25 Sep 2025

A Survey on Music Generation from Single-Modal, Cross-Modal, and Multi-Modal Perspectives

568

01 Apr 2025

Exploring Simple Siamese Network for High-Resolution Video Quality AssessmentIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

185

04 Mar 2025

A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 FramesComputer Vision and Pattern Recognition (CVPR), 2023

279

31 Dec 2024

Scaling 4D Representations

...

440

19 Dec 2024

VidCompress: Memory-Enhanced Temporal Compression for Video Understanding in Large Language Models

181

15 Oct 2024

Enhancing Temporal Modeling of Video LLMs via Time GatingConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Liwei Wang

192

08 Oct 2024

ReSpike: Residual Frames-based Hybrid Spiking Neural Networks for Efficient Action RecognitionNeuromorphic Computing and Engineering (NCE), 2024

237

03 Sep 2024

OmniCLIP: Adapting CLIP for Video Recognition with Spatial-Temporal Omni-Scale Feature LearningEuropean Conference on Artificial Intelligence (ECAI), 2024

Mushui Liu

Bozheng Li

Yunlong Yu

VLM

241

12 Aug 2024

MU-MAE: Multimodal Masked Autoencoders-Based One-Shot LearningConference on Multimedia Information Processing and Retrieval (MIPR), 2024

Rex Liu

Xin Liu

267

08 Aug 2024

Pose-guided multi-task video transformer for driver action recognition

195

18 Jul 2024

Efficient Event Stream Super-Resolution with Recursive Multi-Branch Fusion

221

28 Jun 2024

SVFormer: A Direct Training Spiking Transformer for Efficient Video Action Recognition

Han Zhang

238

21 Jun 2024

A spatiotemporal style transfer algorithm for dynamic visual stimulus generationNature Computational Science (Nat. Comput. Sci.), 2024

Antonino Greco

Markus Siegel

225

07 Mar 2024

Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data

492

101

08 Feb 2024

Taylor Videos for Action RecognitionInternational Conference on Machine Learning (ICML), 2024

Lei Wang

Xiuyuan Yuan

Tom Gedeon

Liang Zheng

555

05 Feb 2024

Classification of Tennis Actions Using Deep Learning

Emil Hovad

Therese Hougaard-Jensen

L. H. Clemmensen

04 Feb 2024

EZ-CLIP: Efficient Zeroshot Video Action Recognition

278

13 Dec 2023

EgoPCA: A New Framework for Egocentric Hand-Object Interaction UnderstandingIEEE International Conference on Computer Vision (ICCV), 2023

175

05 Sep 2023

Improving Video Violence Recognition with Human Interaction Learning on 3D Skeleton Point Clouds

Qingxin Xiao

Guosheng Lin

Qingyao Wu

3DH 3DPC

197

26 Aug 2023

Spatial-Temporal Alignment Network for Action Recognition

Jinhui Ye

Junwei Liang

3DPC

166

19 Aug 2023

ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings for Video Action RecognitionIndian Conference on Computer Vision, Graphics & Image Processing (ICVGIP), 2023

S. Chaudhuri

Saumik Bhattacharya

177

07 Aug 2023

What Can Simple Arithmetic Operations Do for Temporal Modeling?IEEE International Conference on Computer Vision (ICCV), 2023

Jingdong Wang

Wanli Ouyang

212

18 Jul 2023

Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action RecognitionIEEE International Conference on Computer Vision (ICCV), 2023

Syed Talal Wasim

Muhammad Uzair Khattak

Salman Khan

257

13 Jul 2023

Boosting Breast Ultrasound Video Classification by the Guidance of Keyframe Feature CentersInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2023

153

12 Jun 2023

Cross-view Action Recognition Understanding From Exocentric to Egocentric PerspectiveNeurocomputing (Neurocomputing), 2023

Thanh-Dat Truong

Khoa Luu

EgoV

389

25 May 2023

Unified Keypoint-based Action Recognition Framework via Structured Keypoint PoolingComputer Vision and Pattern Recognition (CVPR), 2023

217

27 Mar 2023

Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language ModelsComputer Vision and Pattern Recognition (CVPR), 2022

Jingdong Wang

Wanli Ouyang

395

31 Dec 2022

Deep set conditioned latent representations for action recognitionVISIGRAPP (VISIGRAPP), 2022

168

21 Dec 2022

MAViL: Masked Audio-Video LearnersNeural Information Processing Systems (NeurIPS), 2022

Po-Yao (Bernie) Huang

Christoph Feichtenhofer

322

15 Dec 2022

Fine-tuned CLIP Models are Efficient Video LearnersComputer Vision and Pattern Recognition (CVPR), 2022

H. Rasheed

Muhammad Uzair Khattak

Muhammad Maaz

Salman Khan

Fahad Shahbaz Khan

CLIP VLM

404

225

06 Dec 2022

Dynamic Appearance: A Video Representation for Action Recognition with Joint Training

Guoxi Huang

A. Bors

176

23 Nov 2022

Deep Unsupervised Key Frame Extraction for Efficient Video Classification

103

12 Nov 2022

PatchBlender: A Motion Prior for Video Transformers

Gabriele Prato

Yale Song

Janarthanan Rajendran

185

11 Nov 2022

Two-Stream Network for Sign Language Recognition and TranslationNeural Information Processing Systems (NeurIPS), 2022

241

196

02 Nov 2022

Multimodal Neural Network For Demand ForecastingInternational Conference on Neural Information Processing (ICONIP), 2022

114

20 Oct 2022

Learning Fine-Grained Visual Understanding for Video Question Answering via Decoupling Spatial-Temporal ModelingBritish Machine Vision Conference (BMVC), 2022

Hsin-Ying Lee

Hung-Ting Su

312

08 Oct 2022

Multi-dataset Training of Transformers for Robust Action RecognitionNeural Information Processing Systems (NeurIPS), 2022

Chunhua Shen

251

26 Sep 2022

FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial Video ClassificationIEEE Transactions on Geoscience and Remote Sensing (IEEE TGRS), 2022

Xiao Xiang Zhu

254

22 Sep 2022

MECCANO: A Multimodal Egocentric Dataset for Humans Behavior Understanding in the Industrial-like DomainComputer Vision and Image Understanding (CVIU), 2022

225

19 Sep 2022

On the Surprising Effectiveness of Transformers in Low-Labeled Video Recognition

258

15 Sep 2022

Adaptive Perception Transformer for Temporal Action Localization

Yizheng Ouyang

Tianjin Zhang

Weibo Gu

Hongfa Wang

226

25 Aug 2022

Self-Contained Entity Discovery from Captioned Videos

M. Ayoughi

P. Mettes

Paul T. Groth

152

13 Aug 2022

Video-based Human Action Recognition using Deep Learning: A Review

173

07 Aug 2022

Spatiotemporal Self-attention Modeling with Temporal Patch Shift for Action RecognitionEuropean Conference on Computer Vision (ECCV), 2022

Lei Zhang

152

27 Jul 2022

Masked Autoencoders that ListenNeural Information Processing Systems (NeurIPS), 2022

Po-Yao (Bernie) Huang

Christoph Feichtenhofer

536

388

13 Jul 2022

Analysis and Extensions of Adversarial Training for Video Classification

K. A. Kinfu

René Vidal

AAML

223

16 Jun 2022

PrivHAR: Recognizing Human Actions From Privacy-preserving LensEuropean Conference on Computer Vision (ECCV), 2022

250

08 Jun 2022

In Defense of Image Pre-Training for Spatiotemporal RecognitionEuropean Conference on Computer Vision (ECCV), 2022

Jieru Mei

Cihang Xie

162

03 May 2022

Self-supervised Contrastive Learning for Audio-Visual Action RecognitionInternational Conference on Information Photonics (ICIP), 2022

Yang Liu

Y. Tan

Haoyu Lan

SSL

213

28 Apr 2022