Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition

Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition

13 July 2023

Syed Talal Wasim

Muhammad Uzair Khattak

Muzammal Naseer

Salman Khan

Papers citing "Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition"

5 / 5 papers shown

Title
Principles of Visual Tokens for Efficient Video Understanding Xinyue Hao Gen Li Shreyank N. Gowda Robert B Fisher Jonathan Huang Anurag Arnab Laura Sevilla-Lara 73 0 0 20 Nov 2024
CMT: Convolutional Neural Networks Meet Vision Transformers Jianyuan Guo Kai Han Han Wu Yehui Tang Chunjing Xu Yunhe Wang Chang Xu ViT 325 500 0 13 Jul 2021
VidTr: Video Transformer Without Convolutions Yanyi Zhang Xinyu Li Chunhui Liu Bing Shuai Yi Zhu Biagio Brattoli Hao Chen I. Marsic Joseph Tighe ViT 124 178 0 23 Apr 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 278 1,939 0 09 Feb 2021
Big Bird: Transformers for Longer Sequences Manzil Zaheer Guru Guruganesh Kumar Avinava Dubey Joshua Ainslie Chris Alberti ... Philip Pham Anirudh Ravula Qifan Wang Li Yang Amr Ahmed VLM 249 1,982 0 28 Jul 2020