AssembleNet++: Assembling Modality Representations via Attention Connections

18 August 2020

Papers citing "AssembleNet++: Assembling Modality Representations via Attention Connections"

31 / 31 papers shown

Vision Language Models for Dynamic Human Activity Recognition in Healthcare Settings

144

24 Oct 2025

Language-driven Description Generation and Common Sense Reasoning for Video Action Recognition

190

20 Jun 2025

Salient Temporal Encoding for Dynamic Scene Graph Generation

Zhihao Zhu

278

15 Mar 2025

Enhancing Video Understanding: Deep Neural Networks for Spatiotemporal Analysis

Amir Hosein Fadaei

M. Dehaqani

355

11 Feb 2025

Fusion Matters: Learning Fusion in Deep Click-through Rate Prediction ModelsWeb Search and Data Mining (WSDM), 2024

284

24 Nov 2024

AM Flow: Adapters for Temporal Processing in Action Recognition

277

04 Nov 2024

Just Add

π

! Pose Induced Video Transformers for Understanding Activities of Daily LivingComputer Vision and Pattern Recognition (CVPR), 2023

Dominick Reilly

Srijan Das

ViT

325

30 Nov 2023

Flow Dynamics Correction for Action Recognition

Lei Wang

Piotr Koniusz

276

16 Oct 2023

LAC: Latent Action Composition for Skeleton-based Action SegmentationIEEE International Conference on Computer Vision (ICCV), 2023

693

28 Aug 2023

Seeing the Pose in the Pixels: Learning Pose-Aware Representations in Vision Transformers

294

15 Jun 2023

Self-Supervised Video Representation Learning via Latent Time NavigationAAAI Conference on Artificial Intelligence (AAAI), 2023

288

10 May 2023

VicTR: Video-conditioned Text Representations for Activity RecognitionComputer Vision and Pattern Recognition (CVPR), 2023

367

05 Apr 2023

Transformers in Action Recognition: A Review on Temporal Modeling

Elham Shabaninia

Hossein Nezamabadi-pour

Fatemeh Shafizadegan

ViT

222

29 Dec 2022

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video LearningComputer Vision and Pattern Recognition (CVPR), 2022

255

06 Dec 2022

Learning Fine-Grained Visual Understanding for Video Question Answering via Decoupling Spatial-Temporal ModelingBritish Machine Vision Conference (BMVC), 2022

Hsin-Ying Lee

Hung-Ting Su

369

08 Oct 2022

ViA: View-invariant Skeleton Action Representation Learning via Motion Retargeting

269

31 Aug 2022

Cross-modal Representation Learning for Zero-shot Action RecognitionComputer Vision and Pattern Recognition (CVPR), 2022

Zicheng Liu

209

03 May 2022

Gate-Shift-Fuse for Video Action RecognitionIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Swathikiran Sudhakaran

Sergio Escalera

Oswald Lanz

311

16 Mar 2022

Auto-X3D: Ultra-Efficient Video Understanding via Finer-Grained Neural Architecture Search

166

09 Dec 2021

4D-Net for Learned Multi-Modal Alignment

273

02 Sep 2021

Searching for Two-Stream Models in Multivariate Space for Video RecognitionIEEE International Conference on Computer Vision (ICCV), 2021

Heng Wang

216

30 Aug 2021

UNIK: A Unified Framework for Real-world Skeleton-based Action RecognitionBritish Machine Vision Conference (BMVC), 2021

212

19 Jul 2021

TokenLearner: What Can 8 Learned Tokens Do for Images and Videos?

724

162

21 Jun 2021

VPN++: Rethinking Video-Pose embeddings for understanding Activities of Daily LivingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

460

17 May 2021

Visionary: Vision architecture discovery for robot learningIEEE International Conference on Robotics and Automation (ICRA), 2021

221

26 Mar 2021

A Comprehensive Study of Deep Video Action Recognition

Yi Zhu

Xinyu Li

Chunhui Liu

Mohammadreza Zolfaghari

309

214

11 Dec 2020

Selective Spatio-Temporal Aggregation Based Pose Refinement System: Towards Understanding Human Activities in Real-World Videos

243

10 Nov 2020

Multi-Label Activity Recognition using Activity-specific Features and Activity CorrelationsComputer Vision and Pattern Recognition (CVPR), 2020

188

16 Sep 2020

Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for Gesture Recognition

Stan Z. Li

266

113

21 Aug 2020

Self-supervising Action Recognition by Statistical Moment and Subspace DescriptorsACM Multimedia (ACM MM), 2020

Lei Wang

Piotr Koniusz

305

14 Jan 2020

Tiny Video NetworksApplied AI Letters (AA), 2019

A. Piergiovanni

A. Angelova

Michael S. Ryoo

444

15 Oct 2019