X3D: Expanding Architectures for Efficient Video Recognition

9 April 2020

Papers citing "X3D: Expanding Architectures for Efficient Video Recognition"

50 / 526 papers shown

Title
Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding Guo Chen Yifei Huang Jilan Xu Baoqi Pei Zhe Chen Zhiqi Li Jiahao Wang Kunchang Li Tong Lu Limin Wang Mamba 51 68 0 14 Mar 2024
VideoMamba: State Space Model for Efficient Video Understanding Kunchang Li Xinhao Li Yi Wang Yinan He Yali Wang Limin Wang Yu Qiao Mamba 25 174 0 11 Mar 2024
Transformer-based Fusion of 2D-pose and Spatio-temporal Embeddings for Distracted Driver Action Recognition Erkut Akdag Zeqi Zhu Egor Bondarev Peter H. N. de With ViT 16 5 0 11 Mar 2024
Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition Kun-Yu Lin Henghui Ding Jiaming Zhou Yu-Ming Tang Yi-Xing Peng Zhilin Zhao Chen Change Loy Wei-Shi Zheng VLM 22 6 0 03 Mar 2024
Efficient Action Counting with Dynamic Queries Zishi Li Xiaoxuan Ma Qiuyan Shang Wentao Zhu Hai Ci Yu Qiao Yizhou Wang 21 1 0 03 Mar 2024
ADL4D: Towards A Contextually Rich Dataset for 4D Activities of Daily Living Marsil Zakour Partha Partim Nath Ludwig Lohmer Emre Faik Gökçe Martin Piccolrovazzi Constantin Patsch Yuankai Wu Rahul P. Chaudhari Eckehard G. Steinbach 19 1 0 27 Feb 2024
What's in the Flow? Exploiting Temporal Motion Cues for Unsupervised Generic Event Boundary Detection Sourabh Vasant Gothe Vibhav Agarwal Sourav Ghosh Jayesh Rajkumar Vachhani Pranay Kashyap Barath Raj Kandur 18 2 0 15 Feb 2024
Advancing Human Action Recognition with Foundation Models trained on Unlabeled Public Videos Yang Qian Yinan Sun A. Kargarandehkordi Parnian Azizian O. Mutlu Saimourya Surabhi Pingyi Chen Zain Jabbar Dennis Paul Wall Peter Washington OffRL 14 1 0 14 Feb 2024
Computer Vision for Primate Behavior Analysis in the Wild Richard Vogg Timo Lüddecke Jonathan Henrich Sharmita Dey Matthias Nuske ... Alexander Gail Stefan Treue H. Scherberger F. Worgotter Alexander S. Ecker 28 2 0 29 Jan 2024
Cutup and Detect: Human Fall Detection on Cutup Untrimmed Videos Using a Large Foundational Video Understanding Model Till Grutschus Ola Karrar Emir Esenov Ekta Vats 18 0 0 29 Jan 2024
Multi-model learning by sequential reading of untrimmed videos for action recognition Kodai Kamiya Toru Tamaki 15 0 0 26 Jan 2024
MIFI: MultI-camera Feature Integration for Roust 3D Distracted Driver Activity Recognition Jian Kuang Wenjing Li Fang Li Jun Zhang Zhongcheng Wu 19 1 0 25 Jan 2024
PanAf20K: A Large Video Dataset for Wild Ape Detection and Behaviour Recognition Otto Brookes Majid Mirmehdi Colleen Stephens Samuel Angedakin Katherine Corogenes ... Klaus Zuberbühler Christophe Boesch M. Arandjelovic H. Kühl T. Burghardt 14 12 0 24 Jan 2024
GTAutoAct: An Automatic Datasets Generation Framework Based on Game Engine Redevelopment for Action Recognition Xingyu Song Zhan Li Shi Chen K. Demachi 14 1 0 24 Jan 2024
Out-of-Distribution Detection & Applications With Ablated Learned Temperature Energy Will LeVine Benjamin Pikus Jacob Phillips Berk Norman Fernando Amat Gil Sean Hendryx OODD 38 1 0 22 Jan 2024
Collaboratively Self-supervised Video Representation Learning for Action Recognition Jie M. Zhang Zhifan Wan Lanqing Hu Stephen Lin Shuzhe Wu Shiguang Shan TTA 49 0 0 15 Jan 2024
A multimodal gesture recognition dataset for desktop human-computer interaction Qi Wang Fengchao Zhu Guangming Zhu Liang Zhang Ning Li Eryang Gao 10 0 0 08 Jan 2024
TimeGraphs: Graph-based Temporal Reasoning Paridhi Maheshwari Hongyu Ren Yanan Wang R. Sosič J. Leskovec AI4TS AI4CE 10 2 0 06 Jan 2024
A Large-Scale Re-identification Analysis in Sporting Scenarios: the Betrayal of Reaching a Critical Point David Freire-Obregón J. Lorenzo-Navarro Oliverio J. Santana Daniel Hernández-Sosa Modesto Castrillón-Santana CVBM 14 1 0 29 Dec 2023
Video Understanding with Large Language Models: A Survey Yunlong Tang Jing Bi Siting Xu Luchuan Song Susan Liang ... Feng Zheng Jianguo Zhang Ping Luo Jiebo Luo Chenliang Xu VLM 47 76 0 29 Dec 2023
Classifying Soccer Ball-on-Goal Position Through Kicker Shooting Action Javier Torón-Artiles Daniel Hernández-Sosa Oliverio J. Santana J. Lorenzo-Navarro David Freire-Obregón 14 0 0 23 Dec 2023
CaptainCook4D: A dataset for understanding errors in procedural activities Rohith Peddi Shivvrat Arya B. Challa Likhitha Pallapothula Akshay Vyas ... Vasundhara Komaragiri Eric D. Ragan Nicholas Ruozzi Yu Xiang Vibhav Gogate 35 7 0 22 Dec 2023
Video Recognition in Portrait Mode Mingfei Han Linjie Yang Xiaojie Jin Jiashi Feng Xiaojun Chang Heng Wang 10 3 0 21 Dec 2023
ST(OR)2: Spatio-Temporal Object Level Reasoning for Activity Recognition in the Operating Room Idris Hamoud Muhammad Abdullah Jamal V. Srivastav Didier Mutter N. Padoy Omid Mohareri 11 2 0 19 Dec 2023
Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video Recognition Xiao Wang Yao Rong Shiao Wang Yuan Chen Zhe Wu Bowei Jiang Yonghong Tian Jin Tang ViT 56 3 0 18 Dec 2023
Early Action Recognition with Action Prototypes G. Camporese Alessandro Bergamo Xunyu Lin Joseph Tighe Davide Modolo EgoV 11 0 0 11 Dec 2023
From Detection to Action Recognition: An Edge-Based Pipeline for Robot Human Perception Petros Toupas Georgios Tsamis Dimitrios Giakoumis K. Votis Dimitrios Tzovaras 17 0 0 06 Dec 2023
Unsupervised Video Domain Adaptation with Masked Pre-Training and Collaborative Self-Training Arun V. Reddy William Paul Corban Rivera Ketul Shah Celso M. de Melo Rama Chellappa 25 4 0 05 Dec 2023
Just Add $π$ ! Pose Induced Video Transformers for Understanding Activities of Daily Living Dominick Reilly Srijan Das ViT 25 17 0 30 Nov 2023
CAST: Cross-Attention in Space and Time for Video Action Recognition Dongho Lee Jongseo Lee Jinwoo Choi EgoV 17 10 0 30 Nov 2023
DEVIAS: Learning Disentangled Video Representations of Action and Scene for Holistic Video Understanding Kyungho Bae Geo Ahn Youngrae Kim Jinwoo Choi 16 2 0 30 Nov 2023
Semantic-Aware Frame-Event Fusion based Pattern Recognition via Large Vision-Language Models Dong Li Jiandong Jin Yuhao Zhang Yanlin Zhong Yaoyang Wu Lan Chen Xiao Wang Bin Luo 46 5 0 30 Nov 2023
Overcoming Label Noise for Source-free Unsupervised Video Domain Adaptation A. Dasgupta C. V. Jawahar Karteek Alahari TTA VLM 8 10 0 30 Nov 2023
Generative Hierarchical Temporal Transformer for Hand Action Recognition and Motion Prediction Yilin Wen Hao Pan Takehiko Ohkawa Lei Yang Jia Pan Yoichi Sato Taku Komura Wenping Wang 26 0 0 29 Nov 2023
Action-slot: Visual Action-centric Representations for Multi-label Atomic Activity Recognition in Traffic Scenes Chi-Hsi Kung Shu-Wei Lu Yi-Hsuan Tsai Yi-Ting Chen 23 6 0 29 Nov 2023
Towards Weakly Supervised End-to-end Learning for Long-video Action Recognition Jiaming Zhou Hanjun Li Kun-Yu Lin Junwei Liang 8 1 0 28 Nov 2023
Align before Adapt: Leveraging Entity-to-Region Alignments for Generalizable Video Action Recognition Yifei Chen Dapeng Chen Ruijin Liu Sai Zhou Wenyuan Xue Wei Peng 15 6 0 27 Nov 2023
VSViG: Real-time Video-based Seizure Detection via Skeleton-based Spatiotemporal ViG Yankun Xu Junzhe Wang Yun-Hsuan Chen Jie Yang Wenjie Ming Shuangquan Wang Mohamad Sawan 6 0 0 24 Nov 2023
Quantifying Impairment and Disease Severity Using AI Models Trained on Healthy Subjects Boyang Yu Aakash Kaku Kangning Liu A. Parnandi Emily E Fokas Anita Venkatesan Natasha Pandit Rajesh Ranganath Heidi M. Schambra C. Fernandez‐Granda 11 0 0 21 Nov 2023
Deep Learning-Based Real-Time Quality Control of Standard Video Compression for Live Streaming Matin Mortaheb M. A. Khojastepour S. Chakradhar S. Ulukus 8 1 0 21 Nov 2023
Modality Mixer Exploiting Complementary Information for Multi-modal Action Recognition Sumin Lee Sangmin Woo Muhammad Adi Nugroho Changick Kim 23 0 0 21 Nov 2023
Automated Sperm Assessment Framework and Neural Network Specialized for Sperm Video Recognition T. Fujii Hayato Nakagawa T. Takeshima Y. Yumura T. Hamagami 15 3 0 10 Nov 2023
P-Age: Pexels Dataset for Robust Spatio-Temporal Apparent Age Classification Abid Ali Ashish Marisetty François Brémond 19 6 0 04 Nov 2023
Diversifying Spatial-Temporal Perception for Video Domain Generalization Kun-Yu Lin Jia-Run Du Yipeng Gao Jiaming Zhou Wei-Shi Zheng 21 7 0 27 Oct 2023
Subtle Signals: Video-based Detection of Infant Non-nutritive Sucking as a Neurodevelopmental Cue Shaotong Zhu Michael Wan Sai Kumar Reddy Manne Emily B. Zimmerman Sarah Ostadabbas 8 1 0 24 Oct 2023
S3Aug: Segmentation, Sampling, and Shift for Action Recognition Taiki Sugiura Toru Tamaki AI4TS 16 2 0 23 Oct 2023
3DYoga90: A Hierarchical Video Dataset for Yoga Pose Understanding Seonok Kim 8 0 0 16 Oct 2023
A Spatio-Temporal Attention-Based Method for Detecting Student Classroom Behaviors Fan Yang 11 2 0 04 Oct 2023
ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video Xinhao Li Yuhan Zhu Limin Wang VLM 12 8 0 02 Oct 2023
Training a Large Video Model on a Single Machine in a Day Yue Zhao Philipp Krahenbuhl VLM 17 15 0 28 Sep 2023