PosMLP-Video: Spatial and Temporal Relative Position Encoding for Efficient Video Recognition

3 July 2024

Papers citing "PosMLP-Video: Spatial and Temporal Relative Position Encoding for Efficient Video Recognition"

6 / 6 papers shown

Title
UniFormer: Unifying Convolution and Self-attention for Visual Recognition Kunchang Li Yali Wang Junhao Zhang Peng Gao Guanglu Song Yu Liu Hongsheng Li Yu Qiao ViT 153 360 0 24 Jan 2022
MLP-Mixer: An all-MLP Architecture for Vision Ilya O. Tolstikhin N. Houlsby Alexander Kolesnikov Lucas Beyer Xiaohua Zhai ... Andreas Steiner Daniel Keysers Jakob Uszkoreit Mario Lucic Alexey Dosovitskiy 271 2,603 0 04 May 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 280 1,982 0 09 Feb 2021
On Translation Invariance in CNNs: Convolutional Layers can Exploit Absolute Spatial Location O. Kayhan J. C. V. Gemert 209 232 0 16 Mar 2020
Symbiotic Attention with Privileged Information for Egocentric Action Recognition Xiaohan Wang Yu Wu Linchao Zhu Yi Yang 29 63 0 08 Feb 2020
Grouped Spatial-Temporal Aggregation for Efficient Action Recognition Chenxu Luo Alan Yuille 130 150 0 28 Sep 2019