Efficient Video Action Detection with Token Dropout and Context
Refinement

Efficient Video Action Detection with Token Dropout and Context Refinement

17 April 2023

Lei Chen

Gangshan Wu

Papers citing "Efficient Video Action Detection with Token Dropout and Context Refinement"

17 / 17 papers shown

Title
Post-processing for Fair Regression via Explainable SVD Zhiqun Zuo Ding Zhu Mohammad Mahdi Khalili 55 0 0 04 Apr 2025
Action tube generation by person query matching for spatio-temporal action detection Kazuki Omi Jion Oshima Toru Tamaki 55 0 0 17 Mar 2025
CAT: Content-Adaptive Image Tokenization Junhong Shen Kushal Tirumala Michihiro Yasunaga Ishan Misra Luke Zettlemoyer Lili Yu Chunting Zhou 24 0 0 06 Jan 2025
JoVALE: Detecting Human Actions in Video Using Audiovisual and Language Contexts Taein Son Soo Won Seo Jisong Kim S. Lee Jun Won Choi VGen 67 0 0 18 Dec 2024
Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection Wentao Bao K. Li Yuxiao Chen Deep Patel Martin Renqiang Min Yu Kong VLM ObjD 32 2 0 17 Nov 2024
Audio Description Generation in the Era of LLMs and VLMs: A Review of Transferable Generative AI Technologies Yingqiang Gao Lukas Fischer Alexa Lintner Sarah Ebling 27 0 0 11 Oct 2024
JARViS: Detecting Actions in Video Using Unified Actor-Scene Context Relation Modeling Seok Hwan Lee Taein Son Soo Won Seo Jisong Kim Jun Won Choi 29 0 0 07 Aug 2024
Classification Matters: Improving Video Action Detection with Class-Specific Attention Jinsung Lee Taeoh Kim Inwoong Lee Minho Shim Dongyoon Wee Minsu Cho Suha Kwak 34 0 0 29 Jul 2024
Pose-guided multi-task video transformer for driver action recognition Ricardo Pizarro Roberto Valle L. Bergasa J. M. Buenaposada Luis Baumela ViT 24 0 0 18 Jul 2024
SFMViT: SlowFast Meet ViT in Chaotic World Jiaying Lin Jiajun Wen Mengyuan Liu Jinfu Liu Baiqiao Yin Yue Li ViT 30 1 0 25 Apr 2024
STMixer: A One-Stage Sparse Action Detector Tao Wu Mengqing Cao Ziteng Gao Gangshan Wu Limin Wang 22 0 0 15 Apr 2024
Multiscale Vision Transformers meet Bipartite Matching for efficient single-stage Action Localization Ioanna Ntinou Enrique Sanchez Georgios Tzimiropoulos 39 2 0 29 Dec 2023
A Survey on Deep Learning-based Spatio-temporal Action Detection Peng Wang Fanwei Zeng Yu Qian 19 4 0 03 Aug 2023
ViDT: An Efficient and Effective Fully Transformer-based Object Detector Hwanjun Song Deqing Sun Sanghyuk Chun Varun Jampani Dongyoon Han Byeongho Heo Wonjae Kim Ming-Hsuan Yang 78 75 0 08 Oct 2021
Token Pooling in Vision Transformers D. Marin Jen-Hao Rick Chang Anurag Ranjan Anish K. Prabhu Mohammad Rastegari Oncel Tuzel ViT 65 65 0 08 Oct 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 278 1,939 0 09 Feb 2021
AdaFrame: Adaptive Frame Selection for Fast Video Recognition Zuxuan Wu Caiming Xiong Chih-Yao Ma R. Socher L. Davis 110 194 0 29 Nov 2018