Efficient Video Transformers with Spatial-Temporal Token Selection

Efficient Video Transformers with Spatial-Temporal Token Selection

23 November 2021

Zuxuan Wu

Papers citing "Efficient Video Transformers with Spatial-Temporal Token Selection"

13 / 13 papers shown

Title
Principles of Visual Tokens for Efficient Video Understanding Xinyue Hao Gen Li Shreyank N. Gowda Robert B Fisher Jonathan Huang Anurag Arnab Laura Sevilla-Lara 73 0 0 20 Nov 2024
TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval Leqi Shen Tianxiang Hao Tao He Sicheng Zhao Pengzhang Liu Yongjun Bao Guiguang Ding Guiguang Ding 52 6 0 02 Sep 2024
StimuVAR: Spatiotemporal Stimuli-aware Video Affective Reasoning with Multimodal Large Language Models Y. Guo Faizan Siddiqui Yang Zhao Rama Chellappa Shao-Yuan Lo LRM 24 2 0 31 Aug 2024
How can objects help action recognition? Xingyi Zhou Anurag Arnab Chen Sun Cordelia Schmid 30 14 0 20 Jun 2023
Efficient Video Action Detection with Token Dropout and Context Refinement Lei Chen Zhan Tong Yibing Song Gangshan Wu Limin Wang 21 14 0 17 Apr 2023
ObjectFormer for Image Manipulation Detection and Localization Junke Wang Zuxuan Wu Jingjing Chen Xintong Han Abhinav Shrivastava Ser-Nam Lim Yu-Gang Jiang 20 105 0 28 Mar 2022
TransDARC: Transformer-based Driver Activity Recognition with Latent Space Feature Calibration Kunyu Peng Alina Roitberg Kailun Yang Jiaming Zhang Rainer Stiefelhagen ViT 27 32 0 02 Mar 2022
Intriguing Properties of Vision Transformers Muzammal Naseer Kanchana Ranasinghe Salman Khan Munawar Hayat F. Khan Ming-Hsuan Yang ViT 248 618 0 21 May 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 278 1,939 0 09 Feb 2021
Video Transformer Network Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann ViT 193 375 0 01 Feb 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 398 594 0 21 Jul 2020
AdaFrame: Adaptive Frame Selection for Fast Video Recognition Zuxuan Wu Caiming Xiong Chih-Yao Ma R. Socher L. Davis 113 194 0 29 Nov 2018
ECO: Efficient Convolutional Network for Online Video Understanding Mohammadreza Zolfaghari Kamaljeet Singh Thomas Brox 119 495 0 24 Apr 2018