The Kinetics Human Action Video Dataset

19 May 2017

Sudheendra Vijayanarasimhan

Papers citing "The Kinetics Human Action Video Dataset"

50 / 2,152 papers shown

An Effective End-to-End Solution for Multimodal Action RecognitionInternational Conference on Pattern Recognition (ICPR), 2025

236

11 Jun 2025

HSG-12M: A Large-Scale Spatial Multigraph Dataset

201

10 Jun 2025

Super Encoding Network: Recursive Association of Multi-Modal Encoders for Video Understanding

382

09 Jun 2025

Sleep Stage Classification using Multimodal Embedding Fusion from EOG and PSM

Olivier Papillon

Rafik Goubran

James Green

Julien Larivière-Chartier

Caitlin Higginson

Frank Knoefel

Rébecca Robillard

187

07 Jun 2025

Dream to Generalize: Zero-Shot Model-Based Reinforcement Learning for Unseen Visual DistractionsAAAI Conference on Artificial Intelligence (AAAI), 2023

177

05 Jun 2025

Towards Holistic Visual Quality Assessment of AI-Generated Videos: A LLM-Based Multi-Dimensional Evaluation Model

363

05 Jun 2025

Fine-Tuning Video Transformers for Word-Level Bangla Sign Language: A Comparative Analysis for Classification Tasks

Jubayer Ahmed Bhuiyan Shawon

H. Mahmud

Kamrul Hasan

152

04 Jun 2025

Video, How Do Your Tokens Merge?

Sam Pollard

Michael Wray

ViT MoMe

270

04 Jun 2025

HRTR: A Single-stage Transformer for Fine-grained Sub-second Action Segmentation in Stroke Rehabilitation

205

03 Jun 2025

Large-scale Self-supervised Video Foundation Model for Intelligent Surgery

...

254

03 Jun 2025

Fire360: A Benchmark for Robust Perception and Episodic Memory in Degraded 360-Degree Firefighting Videos

178

02 Jun 2025

SemiVT-Surge: Semi-Supervised Video Transformer for Surgical Phase RecognitionInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025

Yiping Li

Ronald L.P.D. de Jong

Sahar Nasirihaghighi

Tim J. M. Jaspers

Romy van Jaarsveld

...

Richard van Hillegersberg

210

02 Jun 2025

Improving Keystep Recognition in Ego-Video via Dexterous Focus

Zachary Chavis

Stephen J. Guy

Hyun Soo Park

260

01 Jun 2025

$$\texttt{AVROBUSTBENCH}$: Benchmarking the Robustness of Audio-Visual Recognition Models at Test-Time$

\texttt{AVROBUSTBENCH}

: Benchmarking the Robustness of Audio-Visual Recognition Models at Test-Time

Sarthak Kumar Maharana

Saksham Singh Kushwaha

291

31 May 2025

One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory

378

29 May 2025

Multimodal Federated Learning: A Survey through the Lens of Different FL Paradigms

208

27 May 2025

VideoMarkBench: Benchmarking Robustness of Video Watermarking

220

27 May 2025

TDVE-Assessor: Benchmarking and Evaluating the Quality of Text-Driven Video Editing with LMMs

182

26 May 2025

CA3D: Convolutional-Attentional 3D Nets for Efficient Video Activity Recognition on the Edge

158

26 May 2025

The Role of Video Generation in Enhancing Data-Limited Action UnderstandingInternational Joint Conference on Artificial Intelligence (IJCAI), 2025

614

26 May 2025

Inference Compute-Optimal Video Vision Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

277

24 May 2025

Dual Branch VideoMamba with Gated Class Token Fusion for Violence Detection

Damith Chamalke Senadeera

221

23 May 2025

SHARDeg: A Benchmark for Skeletal Human Action Recognition in Degraded Scenarios

423

23 May 2025

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

302

22 May 2025

FLASH: Latent-Aware Semi-Autoregressive Speculative Decoding for Multimodal Tasks

421

19 May 2025

Just Dance with

π

! A Poly-modal Inductor for Weakly-supervised Video Anomaly DetectionComputer Vision and Pattern Recognition (CVPR), 2025

198

19 May 2025

GLOVER++: Unleashing the Potential of Affordance Learning from Human Behaviors for Robotic Manipulation

309

17 May 2025

A Fourier Space Perspective on Diffusion Models

265

16 May 2025

Temporally-Grounded Language Generation: A Benchmark for Real-Time Vision-Language Models

Keunwoo Peter Yu

Joyce Chai

MLLM VLM

289

16 May 2025

$SpikeVideoFormer: An Efficient Spike-Driven Video Transformer with Hamming Attention and $\mathcal{O}(T)$ Complexity$

SpikeVideoFormer: An Efficient Spike-Driven Video Transformer with Hamming Attention and

\mathcal{O}(T)

358

15 May 2025

Incorporating brain-inspired mechanisms for multimodal learning in artificial intelligence

291

15 May 2025

UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video ParsingComputer Vision and Pattern Recognition (CVPR), 2025

Michael Jeffrey Jones

Moitreya Chatterjee

222

14 May 2025

Reinforcement Learning meets Masked Video Modeling : Trajectory-Guided Adaptive Token Selection

350

13 May 2025

Video Dataset Condensation with Diffusion Models

Franciskus Xaverius Erick

Bernhard Kainz

DD VGen

504

10 May 2025

Automated ARAT Scoring Using Multimodal Video Analysis, Multi-View Fusion, and Hierarchical Bayesian Models: A Clinician Study

Tamim Ahmed

Thanassis Rikakis

191

03 May 2025

Vehicular Communication Security: Multi-Channel and Multi-Factor AuthenticationIEEE Transactions on Vehicular Technology (IEEE Trans. Veh. Technol.), 2025

381

01 May 2025

CoCoDiff: Diversifying Skeleton Action Features via Coarse-Fine Text-Co-Guided Latent Diffusion

341

30 Apr 2025

MVQA: Mamba with Unified Sampling for Efficient Video Quality Assessment

296

22 Apr 2025

Audio-Visual Class-Incremental Learning for Fish Feeding intensity Assessment in Aquaculture

343

21 Apr 2025

Bridge the Gap: From Weak to Full Supervision for Temporal Action Localization with PseudoFormerComputer Vision and Pattern Recognition (CVPR), 2025

Ziyi Liu

Wenshu Fan

198

21 Apr 2025

PCBEAR: Pose Concept Bottleneck for Explainable Action Recognition

383

17 Apr 2025

SkeletonX: Data-Efficient Skeleton-based Action Recognition via Cross-sample Feature AggregationIEEE transactions on multimedia (TMM), 2025

286

16 Apr 2025

Co-STAR: Collaborative Curriculum Self-Training with Adaptive Regularization for Source-Free Video Domain Adaptation

Amirhossein Dadashzadeh

Parsa Esmati

Majid Mirmehdi

TTA VLM

409

15 Apr 2025

Multimodal Long Video Modeling Based on Temporal Dynamic Context

495

14 Apr 2025

F$^3$Set: Towards Analyzing Fast, Frequent, and Fine-grained Events from Videos

^3

Set: Towards Analyzing Fast, Frequent, and Fine-grained Events from VideosInternational Conference on Learning Representations (ICLR), 2025

296

11 Apr 2025

RAGME: Retrieval Augmented Video Generation for Enhanced Motion RealismInternational Conference on Multimedia Retrieval (ICMR), 2025

328

09 Apr 2025

Exploring Ordinal Bias in Action Recognition for Instructional Videos

Joochan Kim

Minjoon Jung

Byoung-Tak Zhang

243

09 Apr 2025

SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning

346

08 Apr 2025

Video-Bench: Human-Aligned Video Generation BenchmarkComputer Vision and Pattern Recognition (CVPR), 2025

...

587

07 Apr 2025

Studying Image Diffusion Features for Zero-Shot Video Object Segmentation

335

07 Apr 2025