The Kinetics Human Action Video Dataset

19 May 2017

Sudheendra Vijayanarasimhan

Papers citing "The Kinetics Human Action Video Dataset"

50 / 2,152 papers shown

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent Fusion Model

217

04 Dec 2025

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fraction Estimation in Echocardiography

03 Dec 2025

Unique Lives, Shared World: Learning from Single-Life Videos

...

161

03 Dec 2025

Heatmap Pooling Network for Action Recognition from RGB VideosIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

03 Dec 2025

OmniFD: A Unified Model for Versatile Face Forgery Detection

291

30 Nov 2025

Structured Context Learning for Generic Event Boundary Detection

29 Nov 2025

DisMo: Disentangled Motion Representations for Open-World Motion Transfer

105

28 Nov 2025

Video-CoM: Interactive Video Reasoning via Chain of Manipulations

166

28 Nov 2025

GA2-CLIP: Generic Attribute Anchor for Efficient Prompt Tuningin Video-Language Models

128

27 Nov 2025

SkeletonAgent: An Agentic Interaction Framework for Skeleton-based Action Recognition

228

27 Nov 2025

LungEvaty: A Scalable, Open-Source Transformer-based Deep Learning Model for Lung Cancer Risk Prediction in LDCT Screening

335

25 Nov 2025

Smooth regularization for efficient video recognition

Gil Goldman

Raja Giryes

Mahadev Satyanarayanan

AI4TS

220

25 Nov 2025

VideoCompressa: Data-Efficient Video Understanding via Joint Temporal Compression and Spatial Reconstruction

194

24 Nov 2025

Modality-Collaborative Low-Rank Decomposers for Few-Shot Video Domain Adaptation

159

24 Nov 2025

ViMix-14M: A Curated Multi-Source Video-Text Dataset with Long-Form, High-Quality Captions and Crawl-Free Access

123

23 Nov 2025

Sequence-Adaptive Video Prediction in Continuous Streams using Diffusion Noise Optimization

Sina Mokhtarzadeh Azar

121

23 Nov 2025

BoxingVI: A Multi-Modal Benchmark for Boxing Action Recognition and Localization

137

20 Nov 2025

MGCA-Net: Multi-Grained Category-Aware Network for Open-Vocabulary Temporal Action Localization

Zhenying Fang

Richang Hong

151

17 Nov 2025

RoCoISLR: A Romanian Corpus for Isolated Sign Language Recognition

Cătălin-Alexandru Rîpanu

Andrei-Theodor Hotnog

Giulia-Stefania Imbrea

Dumitru-Clementin Cercel

SLR

304

16 Nov 2025

Cross-View Cross-Modal Unsupervised Domain Adaptation for Driver Monitoring System

Aditi Bhalla

Christian Hellert

Enkelejda Kasneci

15 Nov 2025

RodEpil: A Video Dataset of Laboratory Rodents for Seizure Detection and Benchmark Evaluation

13 Nov 2025

EgoEMS: A High-Fidelity Multimodal Egocentric Dataset for Cognitive Assistance in Emergency Medical Services

200

13 Nov 2025

PriVi: Towards A General-Purpose Video Model For Primate Behavior In The Wild

...

178

12 Nov 2025

RadHARSimulator V2: Video to Doppler Generator

Weicheng Gao

12 Nov 2025

FlowFeat: Pixel-Dense Embedding of Motion Profiles

360

10 Nov 2025

Otter: Mitigating Background Distractions of Wide-Angle Few-Shot Action Recognition with Enhanced RWKV

225

10 Nov 2025

CAMP-VQA: Caption-Embedded Multimodal Perception for No-Reference Quality Assessment of Compressed Video

10 Nov 2025

Mitigating Modality Imbalance in Multi-modal Learning via Multi-objective Optimization

Heshan Devaka Fernando

229

10 Nov 2025

Temporal Zoom Networks: Distance Regression and Continuous Depth for Efficient Action Localization

Ibne Farabi Shihab

Sanjeda Akter

Anuj Sharma

199

06 Nov 2025

DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding

183

04 Nov 2025

A Cognitive Process-Inspired Architecture for Subject-Agnostic Brain Visual Decoding

04 Nov 2025

Dynamic Reflections: Probing Video Representations with Text Alignment

253

04 Nov 2025

Web-Scale Collection of Video Data for 4D Animal Reconstruction

Brian Nlong Zhao

Jiajun Wu

Shangzhe Wu

125

03 Nov 2025

FastBoost: Progressive Attention with Dynamic Scaling for Efficient Deep Learning

JunXi Yuan

121

02 Nov 2025

Enhancing Spatio-Temporal Zero-shot Action Recognition with Language-driven Description AttributesPattern Recognition (Pattern Recogn.), 2025

Yehna Kim

Y. Kim

Seong-Whan Lee

VLM

128

31 Oct 2025

GMFVAD: Using Grained Multi-modal Feature to Improve Video Anomaly Detection

108

23 Oct 2025

Is This Tracker On? A Benchmark Protocol for Dynamic Tracking

Ilona Demler

Saumya Chauhan

Georgia Gkioxari

111

22 Oct 2025

FeatureFool: Zero-Query Fooling of Video Models via Feature Map

230

21 Oct 2025

Quantifying Multimodal Imbalance: A GMM-Guided Adaptive Loss for Audio-Visual Learning

Zhaocheng Liu

Zhiwen Yu

Xiaoqing Liu

204

20 Oct 2025

A Comprehensive Survey on World Models for Embodied AI

252

19 Oct 2025

StretchySnake: Flexible SSM Training Unlocks Action Recognition Across Spatio-Temporal Scales

153

17 Oct 2025

Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

Minji Kim

Taekyung Kim

Bohyung Han

15 Oct 2025

State Space Prompting via Gathering and Spreading Spatio-Temporal Information for Video Understanding

14 Oct 2025

Mixup Helps Understanding Multimodal Video Better

Xiaoyu Ma

Ding Ding

Hao Chen

124

13 Oct 2025

Image-to-Video Transfer Learning based on Image-Language Foundation Models: A Comprehensive Survey

151

12 Oct 2025

ESCA: Contextualizing Embodied Agents via Scene-Graph Generation

282

11 Oct 2025

SliceFine: The Universal Winning-Slice Hypothesis for Pretrained Networks

Md. Kowsher

Ali O. Polat

Ehsan Mohammady Ardehaly

186

09 Oct 2025

Distributed Algorithms for Multi-Agent Multi-Armed Bandits with Collision

159

08 Oct 2025

Aligning Perception, Reasoning, Modeling and Interaction: A Survey on Physical AI

...

376

06 Oct 2025

Rethinking JEPA: Compute-Efficient Video SSL with Frozen Teachers

160

29 Sep 2025