The Kinetics Human Action Video Dataset

19 May 2017

Sudheendra Vijayanarasimhan

Papers citing "The Kinetics Human Action Video Dataset"

50 / 2,152 papers shown

Janus: Collaborative Vision Transformer Under Dynamic Network EnvironmentIEEE Conference on Computer Communications (IEEE INFOCOM), 2025

890

14 Feb 2025

Learning Human Skill Generators at Key-Step Levels

392

12 Feb 2025

Enhancing Video Understanding: Deep Neural Networks for Spatiotemporal Analysis

Amir Hosein Fadaei

M. Dehaqani

327

11 Feb 2025

A Survey on Mamba Architecture for Vision Applications

432

11 Feb 2025

History-Guided Video Diffusion

554

10 Feb 2025

Survey on AI-Generated Media Detection: From Non-MLLM to MLLM

697

07 Feb 2025

BRIDLE: Generalized Self-supervised Learning with Quantization

329

04 Feb 2025

Video Latent Flow Matching: Optimal Polynomial Projections for Video Interpolation and Extrapolation

511

01 Feb 2025

Minimalistic Video Saliency Prediction via Efficient Decoder & Spatio Temporal Action CuesIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

207

01 Feb 2025

Can masking background and object reduce static bias for zero-shot action recognition?Conference on Multimedia Modeling (MMM), 2025

450

22 Jan 2025

InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling

...

543

120

21 Jan 2025

Human Activity Recognition in an Open WorldJournal of Artificial Intelligence Research (JAIR), 2022

Walter J. Scheirer University of Notre Dame

390

17 Jan 2025

A Multimodal Dataset for Enhancing Industrial Task Monitoring and Engagement PredictionIEEE/ACM International Conference on Human-Robot Interaction (HRI), 2025

199

10 Jan 2025

Differentiable Task Graph Learning: Procedural Activity Representation and Online Mistake Detection from Egocentric VideosNeural Information Processing Systems (NeurIPS), 2024

Luigi Seminara

G. Farinella

Antonino Furnari

488

10 Jan 2025

MS-Temba: Multi-Scale Temporal Mamba for Understanding Long Untrimmed Videos

577

10 Jan 2025

OV-HHIR: Open Vocabulary Human Interaction Recognition Using Cross-modal Integration of Large Language ModelsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

151

03 Jan 2025

MLVU: Benchmarking Multi-task Long Video UnderstandingComputer Vision and Pattern Recognition (CVPR), 2024

...

539

03 Jan 2025

Cross-Modal Fusion and Attention Mechanism for Weakly Supervised Video Anomaly Detection

355

31 Dec 2024

GFG -- Gender-Fair Generation: A CALAMITA Challenge

313

31 Dec 2024

VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling

...

863

108

31 Dec 2024

Finger in Camera Speaks Everything: Unconstrained Air-Writing for Real-World

210

27 Dec 2024

Sensitive Image Classification by Vision TransformersIEEE International Conference on Systems, Man and Cybernetics (SMC), 2024

320

21 Dec 2024

LEARN: A Unified Framework for Multi-Task Domain Adapt Few-Shot Learning

Bharadwaj Ravichandran

Alexander Lynch

S. Brockman

Brandon RichardWebster

394

20 Dec 2024

Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-CaptioningAAAI Conference on Artificial Intelligence (AAAI), 2024

298

18 Dec 2024

Do Language Models Understand Time?The Web Conference (WWW), 2024

Xi Ding

Lei Wang

941

18 Dec 2024

JoVALE: Detecting Human Actions in Video Using Audiovisual and Language ContextsAAAI Conference on Artificial Intelligence (AAAI), 2024

367

18 Dec 2024

Move-in-2D: 2D-Conditioned Human Motion GenerationComputer Vision and Pattern Recognition (CVPR), 2024

195

17 Dec 2024

Gramian Multimodal Representation Learning and AlignmentInternational Conference on Learning Representations (ICLR), 2024

463

16 Dec 2024

Training Strategies for Isolated Sign Language RecognitionJournal of WSCG (WSCG), 2024

439

16 Dec 2024

Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video RecognitionIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

286

15 Dec 2024

Repetitive Action Counting with Hybrid Temporal Relation ModelingIEEE transactions on multimedia (IEEE TMM), 2024

243

10 Dec 2024

Policy-shaped prediction: avoiding distractions in model-based reinforcement learningNeural Information Processing Systems (NeurIPS), 2024

Miles Hutson

Isaac Kauvar

Nick Haber

323

08 Dec 2024

Reinforcement Learning from Wild Animal Videos

952

05 Dec 2024

AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?

...

279

03 Dec 2024

SEAL: Semantic Attention Learning for Long Video RepresentationComputer Vision and Pattern Recognition (CVPR), 2024

635

02 Dec 2024

VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval

278

02 Dec 2024

OccludeNet: A Causal Journey into Mixed-View Actor-Centric Video Action Recognition under Occlusions

399

24 Nov 2024

KDC-MAE: Knowledge Distilled Contrastive Mask Auto-EncoderIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

313

19 Nov 2024

LaVin-DiT: Large Vision Diffusion TransformerComputer Vision and Pattern Recognition (CVPR), 2024

553

18 Nov 2024

Bridging the Skeleton-Text Modality Gap: Diffusion-Powered Modality Alignment for Zero-shot Skeleton-based Action Recognition

Jeonghyeok Do

Munchurl Kim

603

16 Nov 2024

DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization

C. Koutlis

Symeon Papadopoulos

424

15 Nov 2024

Weakly-Supervised Anomaly Detection in Surveillance Videos Based on Two-Stream I3D Convolution Network

Sareh Nejad

Anwar Haque

181

13 Nov 2024

Pay Attention to the Keys: Visual Piano Transcription Using TransformersInternational Joint Conference on Artificial Intelligence (IJCAI), 2024

Uros Zivanovic

Ivan Pilkov

Carlos Eduardo Cancino-Chacón

ViT

178

13 Nov 2024

Multi-Modal interpretable automatic video captioning

Antoine Hanna-Asaad

Decky Aspandi

Titus Zaharia

258

11 Nov 2024

Balancing Multimodal Training Through Game-Theoretic Regularization

Konstantinos Kontras

Thomas Strypsteen

Christos Chatzichristos

Paul P. Liang

Matthew Blaschko

M. D. Vos

398

11 Nov 2024

Extended multi-stream temporal-attention module for skeleton-based human action recognition (HAR)Computers in Human Behavior (CHB), 2024

331

10 Nov 2024

Improved Video VAE for Latent Video Diffusion ModelComputer Vision and Pattern Recognition (CVPR), 2024

175

10 Nov 2024

CityGuessr: City-Level Video Geo-Localization on a Global ScaleEuropean Conference on Computer Vision (ECCV), 2024

192

10 Nov 2024

Don't Look Twice: Faster Video Transformers with Run-Length TokenizationNeural Information Processing Systems (NeurIPS), 2024

249

07 Nov 2024

HourVideo: 1-Hour Video-Language UnderstandingNeural Information Processing Systems (NeurIPS), 2024

Keshigeyan Chandrasegaran

290

07 Nov 2024