A Closer Look at Spatiotemporal Convolutions for Action Recognition

30 November 2017

Heng Wang

Papers citing "A Closer Look at Spatiotemporal Convolutions for Action Recognition"

50 / 1,270 papers shown

Title
Action Detection via an Image Diffusion Process Lin Geng Foo Tianjiao Li Hossein Rahmani Jun Liu 22 4 0 01 Apr 2024
PIPNet3D: Interpretable Detection of Alzheimer in MRI Scans Lisa Anita De Santi Jorg Schlotterer Michael Scheschenja Joel Wessendorf Meike Nauta Vincenzo Positano Christin Seifert MedIm 38 3 0 27 Mar 2024
OmniVid: A Generative Framework for Universal Video Understanding Junke Wang Dongdong Chen Chong Luo Bo He Lu Yuan Zuxuan Wu Yu-Gang Jiang VLM VGen 77 14 0 26 Mar 2024
TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models Zhongwei Zhang Fuchen Long Yingwei Pan Zhaofan Qiu Ting Yao Yang Cao Tao Mei VGen 48 23 0 25 Mar 2024
RSTAR: Rotational Streak Artifact Reduction in 4D CBCT using Separable and Circular Convolutions Ziheng Deng Hua Chen Haibo Hu Zhiyong Xu Tianling Lyu Yan Xi Yang Chen Jun Zhao 26 0 0 25 Mar 2024
InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding Yi Wang Kunchang Li Xinhao Li Jiashuo Yu Yinan He ... Hongjie Zhang Yifei Huang Yu Qiao Yali Wang Limin Wang 42 49 0 22 Mar 2024
Spatio-Temporal Proximity-Aware Dual-Path Model for Panoramic Activity Recognition Sumin Lee Yooseung Wang Sangmin Woo Changick Kim 29 0 0 21 Mar 2024
Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition R Gnana Praveen Jahangir Alam 42 17 0 20 Mar 2024
High-confidence pseudo-labels for domain adaptation in COVID-19 detection Robert Turnbull Simon Mutch OOD 19 2 0 20 Mar 2024
Selective, Interpretable, and Motion Consistent Privacy Attribute Obfuscation for Action Recognition Filip Ilic Henghui Zhao Thomas Pock Richard P. Wildes PICV AAML 44 2 0 19 Mar 2024
ExACT: Language-guided Conceptual Reasoning and Uncertainty Estimation for Event-based Action Recognition and More Jiazhou Zhou Xueye Zheng Yuanhuiyi Lyu Lin Wang 89 21 0 19 Mar 2024
VideoBadminton: A Video Dataset for Badminton Action Recognition Qi Li Tzu-Chen Chiu Hsiang-Wei Huang Minmin Sun Wei-Shinn Ku 34 3 0 19 Mar 2024
TCNet: Continuous Sign Language Recognition from Trajectories and Correlated Regions Hui Lu A. A. Salah Ronald Poppe SLR 32 5 0 18 Mar 2024
On the Utility of 3D Hand Poses for Action Recognition Md Salman Shamil Dibyadip Chatterjee Fadime Sener Shugao Ma Angela Yao 40 5 0 14 Mar 2024
Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding Guo Chen Yifei Huang Jilan Xu Baoqi Pei Zhe Chen Zhiqi Li Jiahao Wang Kunchang Li Tong Lu Limin Wang Mamba 64 73 0 14 Mar 2024
PTSD-MDNN : Fusion tardive de réseaux de neurones profonds multimodaux pour la détection du trouble de stress post-traumatique Long Nguyen-Phuoc Rénald Gaboriau Dimitri Delacroix Laurent Navarro 19 0 0 14 Mar 2024
Pig aggression classification using CNN, Transformers and Recurrent Networks Junior Silva Souza Eduardo Bedin G. Higa Newton Loebens H. Pistori 35 0 0 13 Mar 2024
VideoMamba: State Space Model for Efficient Video Understanding Kunchang Li Xinhao Li Yi Wang Yinan He Yali Wang Limin Wang Yu Qiao Mamba 42 184 0 11 Mar 2024
Transformer-based Fusion of 2D-pose and Spatio-temporal Embeddings for Distracted Driver Action Recognition Erkut Akdag Zeqi Zhu Egor Bondarev Peter H. N. de With ViT 37 5 0 11 Mar 2024
Learning Expressive And Generalizable Motion Features For Face Forgery Detection Jingyi Zhang Peng Zhang Jingjing Wang Di Xie Shiliang Pu 32 1 0 08 Mar 2024
Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation Joseph Cho Fachrina Dewi Puspitasari Sheng Zheng Jingyao Zheng Lik-Hang Lee Tae-Ho Kim Choong Seon Hong Chaoning Zhang EGVM VGen 44 41 0 08 Mar 2024
A spatiotemporal style transfer algorithm for dynamic visual stimulus generation Antonino Greco Markus Siegel 25 2 0 07 Mar 2024
$A$^{3}$lign-DFER: Pioneering Comprehensive Dynamic Affective Alignment for Dynamic Facial Expression Recognition with CLIP$ A $^{3}$ lign-DFER: Pioneering Comprehensive Dynamic Affective Alignment for Dynamic Facial Expression Recognition with CLIP Zeng Tao Yan Wang Junxiong Lin Haoran Wang Xinji Mai ... Ziheng Zhou Shaoqi Yan Qing Zhao Liyuan Han Wenqiang Zhang 46 13 0 07 Mar 2024
Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition Kun-Yu Lin Henghui Ding Jiaming Zhou Yu-Ming Tang Yi-Xing Peng Zhilin Zhao Chen Change Loy Wei-Shi Zheng VLM 43 15 0 03 Mar 2024
Dynamic 3D Point Cloud Sequences as 2D Videos Yiming Zeng Junhui Hou Qijian Zhang Siyu Ren Wenping Wang 3DPC 49 1 0 02 Mar 2024
Percept, Chat, and then Adapt: Multimodal Knowledge Transfer of Foundation Models for Open-World Video Recognition Boyu Chen Siran Chen Kunchang Li Qinglin Xu Yu Qiao Yali Wang 34 3 0 29 Feb 2024
BEE-NET: A deep neural network to identify in-the-wild Bodily Expression of Emotions Mohammad Mahdi Dehshibi David Masip 46 1 0 21 Feb 2024
What's in the Flow? Exploiting Temporal Motion Cues for Unsupervised Generic Event Boundary Detection Sourabh Vasant Gothe Vibhav Agarwal Sourav Ghosh Jayesh Rajkumar Vachhani Pranay Kashyap Barath Raj Kandur 33 2 0 15 Feb 2024
TDViT: Temporal Dilated Video Transformer for Dense Video Tasks Guanxiong Sun Yang Hua Guosheng Hu N. Robertson ViT 32 1 0 14 Feb 2024
Comment-aided Video-Language Alignment via Contrastive Pre-training for Short-form Video Humor Detection Yang Liu Tongfei Shen Dong Zhang Qingying Sun Shoushan Li Guodong Zhou 27 4 0 14 Feb 2024
Advancing Human Action Recognition with Foundation Models trained on Unlabeled Public Videos Yang Qian Yinan Sun A. Kargarandehkordi Parnian Azizian O. Mutlu Saimourya Surabhi Pingyi Chen Zain Jabbar Dennis Paul Wall Peter Washington OffRL 29 1 0 14 Feb 2024
Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data Shufan Li Harkanwar Singh Aditya Grover Mamba 95 57 0 08 Feb 2024
Deepfake Detection and the Impact of Limited Computing Capabilities Paloma Cantero-Arjona Alfonso Sánchez-Macián 33 2 0 08 Feb 2024
Adversarially Robust Deepfake Detection via Adversarial Feature Similarity Learning Sarwar Khan AAML 29 4 0 06 Feb 2024
Taylor Videos for Action Recognition Lei Wang Xiuyuan Yuan Tom Gedeon Liang Zheng 26 6 0 05 Feb 2024
Seeing Objects in a Cluttered World: Computational Objectness from Motion in Video Douglas Poland Amar Saini VOS OCL 45 1 0 02 Feb 2024
ContactGen: Contact-Guided Interactive 3D Human Generation for Partners Dongjun Gu Jaehyeok Shim Jaehoon Jang Changwoo Kang Kyungdon Joo DiffM 26 2 0 30 Jan 2024
Cutup and Detect: Human Fall Detection on Cutup Untrimmed Videos Using a Large Foundational Video Understanding Model Till Grutschus Ola Karrar Emir Esenov Ekta Vats 26 0 0 29 Jan 2024
MIFI: MultI-camera Feature Integration for Roust 3D Distracted Driver Activity Recognition Jian Kuang Wenjing Li Fang Li Jun Zhang Zhongcheng Wu 35 1 0 25 Jan 2024
PanAf20K: A Large Video Dataset for Wild Ape Detection and Behaviour Recognition Otto Brookes Majid Mirmehdi Colleen Stephens Samuel Angedakin Katherine Corogenes ... Klaus Zuberbühler Christophe Boesch M. Arandjelovic H. Kühl T. Burghardt 35 13 0 24 Jan 2024
WiMANS: A Benchmark Dataset for WiFi-based Multi-user Activity Sensing Shuokang Huang Kaihan Li Di You Yichong Chen Arvin Lin Siying Liu Xiaohui Li Julie A. McCann 30 6 0 24 Jan 2024
Lumiere: A Space-Time Diffusion Model for Video Generation Omer Bar-Tal Hila Chefer Omer Tov Charles Herrmann Roni Paiss ... T. Michaeli Oliver Wang Deqing Sun Tali Dekel Inbar Mosseri VGen 114 218 0 23 Jan 2024
ActionHub: A Large-scale Action Video Description Dataset for Zero-shot Action Recognition Jiaming Zhou Junwei Liang Kun-Yu Lin Jinrui Yang Wei-Shi Zheng VLM 21 7 0 22 Jan 2024
GPT4Ego: Unleashing the Potential of Pre-trained Models for Zero-Shot Egocentric Action Recognition Guangzhao Dai Xiangbo Shu Wenhao Wu Rui Yan Jiachao Zhang VLM 29 5 0 18 Jan 2024
Collaboratively Self-supervised Video Representation Learning for Action Recognition Jie Zhang Zhifan Wan Lanqing Hu Stephen Lin Shuzhe Wu Shiguang Shan TTA 67 1 0 15 Jan 2024
Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition Yukun Zuo Hantao Yao Liansheng Zhuang Changsheng Xu 15 2 0 11 Jan 2024
HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion Recognition Guoying Zhao Zheng Lian Bin Liu Jianhua Tao 53 29 0 11 Jan 2024
SonicVisionLM: Playing Sound with Vision Language Models Zhifeng Xie Shengye Yu Qile He Mengtian Li VLM VGen 28 2 0 09 Jan 2024
SVFAP: Self-supervised Video Facial Affect Perceiver Guoying Zhao Zheng Lian Kexin Wang Yu He Ming Xu Haiyang Sun Bin Liu Jianhua Tao 56 14 0 31 Dec 2023
Video Recognition in Portrait Mode Mingfei Han Linjie Yang Xiaojie Jin Jiashi Feng Xiaojun Chang Heng Wang 30 3 0 21 Dec 2023