VPN: Learning Video-Pose Embedding for Activities of Daily Living

6 July 2020

Papers citing "VPN: Learning Video-Pose Embedding for Activities of Daily Living"

50 / 54 papers shown

Heatmap Pooling Network for Action Recognition from RGB VideosIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

163

03 Dec 2025

Probabilistic Temporal Masked Attention for Cross-view Online Action DetectionIEEE transactions on multimedia (TMM), 2025

193

23 Aug 2025

Dual-view Spatio-Temporal Feature Fusion with CNN-Transformer Hybrid Network for Chinese Isolated Sign Language Recognition

253

08 Jun 2025

Geometric Visual Fusion Graph Neural Networks for Multi-Person Human-Object Interaction Recognition in VideosExpert systems with applications (ESWA), 2025

354

03 Jun 2025

Just Dance with

π

! A Poly-modal Inductor for Weakly-supervised Video Anomaly DetectionComputer Vision and Pattern Recognition (CVPR), 2025

284

19 May 2025

Are Spatial-Temporal Graph Convolution Networks for Human Action Recognition Over-Parameterized?Computer Vision and Pattern Recognition (CVPR), 2025

279

15 May 2025

AM Flow: Adapters for Temporal Processing in Action Recognition

312

04 Nov 2024

LS-HAR: Language Supervised Human Action Recognition with Salient Fusion, Construction Sites as a Use-Case

Mohammad Mahdavian

Mohammad Loni

Mo Chen

376

02 Oct 2024

Pose-Guided Fine-Grained Sign Language Video GenerationEuropean Conference on Computer Vision (ECCV), 2024

Wei Feng

361

25 Sep 2024

EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition

376

10 Aug 2024

Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition

Jinfu Liu

Chong Chen

Mengyuan Liu

616

22 Jul 2024

Geometric Features Enhanced Human-Object Interaction Detection

331

26 Jun 2024

LLAVIDAL: A Large LAnguage VIsion Model for Daily Activities of Living

Rajatsubhra Chakraborty

Francois Bremond

232

13 Jun 2024

From CNNs to Transformers in Multimodal Human Action Recognition: A Survey

Muhammad Bilal Shaikh

Syed Mohammed Shamsul Islam

Douglas Chai

Naveed Akhtar

439

22 May 2024

HDBN: A Novel Hybrid Dual-branch Network for Robust Skeleton-based Action Recognition

332

24 Apr 2024

VG4D: Vision-Language Model Goes 4D Video Recognition

Xiangtai Li

241

17 Apr 2024

On the Utility of 3D Hand Poses for Action RecognitionEuropean Conference on Computer Vision (ECCV), 2024

Angela Yao

317

14 Mar 2024

MV2MAE: Multi-View Video Masked Autoencoders

339

29 Jan 2024

Collaboratively Self-supervised Video Representation Learning for Action RecognitionIEEE Transactions on Information Forensics and Security (IEEE TIFS), 2024

516

15 Jan 2024

Explore Human Parsing Modality for Action RecognitionCAAI Transactions on Intelligence Technology (CAAI-TIT), 2024

247

04 Jan 2024

DVANet: Disentangling View and Action Features for Multi-View Action RecognitionAAAI Conference on Artificial Intelligence (AAAI), 2023

Nyle Siddiqui

Praveen Tirupattur

Mubarak Shah

ViT

283

10 Dec 2023

Just Add

π

! Pose Induced Video Transformers for Understanding Activities of Daily LivingComputer Vision and Pattern Recognition (CVPR), 2023

Dominick Reilly

Srijan Das

ViT

357

30 Nov 2023

Modality Mixer Exploiting Complementary Information for Multi-modal Action Recognition

286

21 Nov 2023

ViFiT: Reconstructing Vision Trajectories from IMU and Wi-Fi Fine Time Measurements

342

04 Oct 2023

Unified Contrastive Fusion Transformer for Multimodal Human Action Recognition

Kyoung Ok Yang

Junho Koh

Jun-Won Choi

250

10 Sep 2023

Vision-Based Human Pose Estimation via Deep Learning: A SurveyIEEE Transactions on Human-Machine Systems (IEEE Trans. Hum.-Mach. Syst.), 2023

334

26 Aug 2023

Multi-stage Factorized Spatio-Temporal Representation for RGB-D Action and Gesture RecognitionACM Multimedia (ACM MM), 2023

294

23 Aug 2023

Integrating Human Parsing and Pose Network for Human Action RecognitionCAAI International Conference on Artificial Intelligence (ICCAI), 2023

254

16 Jul 2023

Seeing the Pose in the Pixels: Learning Pose-Aware Representations in Vision Transformers

300

15 Jun 2023

Learning by Aligning 2D Skeleton Sequences and Multi-Modality FusionEuropean Conference on Computer Vision (ECCV), 2023

802

31 May 2023

Self-Supervised Video Representation Learning via Latent Time NavigationAAAI Conference on Artificial Intelligence (AAAI), 2023

316

10 May 2023

Temporal-Channel Topology Enhanced Network for Skeleton-Based Action RecognitionChinese Conference on Pattern Recognition and Computer Vision (CPRCV), 2023

241

25 Feb 2023

Understanding Policy and Technical Aspects of AI-Enabled Smart Video Surveillance to Address Public SafetyComputational Urban Science (CUS), 2023

B. R. Ardabili

Armin Danesh Pazho

Ghazal Alinezhad Noghre

Christopher Neff

Sai Datta Bhaskararayuni

Arun K. Ravindran

Shannon Reid

Hamed Tabkhi

336

08 Feb 2023

Transformers in Action Recognition: A Review on Temporal Modeling

Elham Shabaninia

Hossein Nezamabadi-pour

Fatemeh Shafizadegan

ViT

301

29 Dec 2022

Cross-Modal Learning with 3D Deformable Attention for Action RecognitionIEEE International Conference on Computer Vision (ICCV), 2022

389

12 Dec 2022

STAR-Transformer: A Spatio-temporal Cross Attention Transformer for Human Action RecognitionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

320

158

14 Oct 2022

Modality Mixer for Multi-modal Action RecognitionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

207

24 Aug 2022

ModSelect: Automatic Modality Selection for Synthetic-to-Real Domain Generalization

350

19 Aug 2022

Multimodal Generation of Novel Action Appearances for Synthetic-to-Real Recognition of Activities of Daily LivingIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2022

282

03 Aug 2022

Geometric Features Informed Multi-person Human-object Interaction Recognition in VideosEuropean Conference on Computer Vision (ECCV), 2022

Hubert P. H. Shum

227

19 Jul 2022

Learning Viewpoint-Agnostic Visual Representations by Recovering Tokens in 3D SpaceNeural Information Processing Systems (NeurIPS), 2022

Jinghuan Shang

Srijan Das

Michael S. Ryoo

398

23 Jun 2022

Quantification of Occlusion Handling Capability of a 3D Human Pose Estimation FrameworkIEEE transactions on multimedia (IEEE TMM), 2022

Mehwish Ghafoor

Arif Mahmood

3DH

177

08 Mar 2022

Multi-modal 3D Human Pose Estimation with 2D Weak Supervision in Autonomous Driving

...

297

22 Dec 2021

Cross-modal Manifold Cutmix for Self-supervised Video Representation Learning

Srijan Das

Michael S. Ryoo

SSL

334

07 Dec 2021

ViewCLR: Learning Self-supervised Video Representation for Unseen Viewpoints

Srijan Das

Michael S. Ryoo

SSL

291

07 Dec 2021

Skeleton-Based Mutually Assisted Interacted Object Localization and Human Action RecognitionIEEE transactions on multimedia (IEEE Trans. Multimedia), 2021

297

28 Oct 2021

Unsupervised View-Invariant Human Posture Representation

289

17 Sep 2021

UNIK: A Unified Framework for Real-world Skeleton-based Action RecognitionBritish Machine Vision Conference (BMVC), 2021

259

19 Jul 2021

Let's Play for Action: Recognizing Activities of Daily Living by Learning from Life Simulation Video Games

301

12 Jul 2021

VPN++: Rethinking Video-Pose embeddings for understanding Activities of Daily LivingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

479

17 May 2021