The Kinetics Human Action Video Dataset

19 May 2017

Sudheendra Vijayanarasimhan

Papers citing "The Kinetics Human Action Video Dataset"

50 / 2,152 papers shown

NeRV-Diffusion: Diffuse Implicit Neural Representations for Video Synthesis

120

29 Sep 2025

Disentangling Static and Dynamic Information for Reducing Static Bias in Action Recognition

Masato Kobayashi

Ning Ding

Toru Tamaki

128

27 Sep 2025

Category Discovery: An Open-World Perspective

Zhenqi He

Yuanpei Liu

Kai Han

265

26 Sep 2025

Every Subtlety Counts: Fine-grained Person Independence Micro-Action Recognition via Distributionally Robust Optimization

177

25 Sep 2025

VC-Agent: An Interactive Agent for Customized Video Dataset Collection

178

25 Sep 2025

MoCLIP-Lite: Efficient Video Recognition by Fusing CLIP with Motion Vectors

127

21 Sep 2025

KRAST: Knowledge-Augmented Robotic Action Recognition with Structured Text for Vision-Language Models

121

19 Sep 2025

Dual-Stage Reweighted MoE for Long-Tailed Egocentric Mistake Detection

416

16 Sep 2025

ResidualViT for Efficient Temporally Dense Video Encoding

171

16 Sep 2025

More performant and scalable: Rethinking contrastive vision-language pre-training of radiology in the LLM eraInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025

111

16 Sep 2025

Video Understanding by Design: How Datasets Shape Architectures and Insights

238

11 Sep 2025

Video-Based MPAA Rating Prediction: An Attention-Driven Hybrid Architecture Using Contrastive Learning

Dipta Neogi

Nourash Azmine Chowdhury

Muhammad Rafsan Kabir

Mohammad Ashrafuzzaman Khan

08 Sep 2025

DuoCLR: Dual-Surrogate Contrastive Learning for Skeleton-based Human Action Segmentation

Haitao Tian

Pierre Payeur

161

05 Sep 2025

DynaMind: Reconstructing Dynamic Visual Scenes from EEG by Aligning Temporal Dynamics and Multimodal Semantics to Guided Diffusion

111

01 Sep 2025

What Can We Learn from Harry Potter? An Exploratory Study of Visual Representation Learning from Atypical Videos

221

29 Aug 2025

Unsupervised Video Continual Learning via Non-Parametric Deep Embedded Clustering

Nattapong Kurpukdee

Adrian G. Bors

148

29 Aug 2025

Looking Beyond the Obvious: A Survey on Abstract Concept Recognition for Video Understanding

Gowreesh Mago

Pascal Mettes

Stevan Rudinac

141

28 Aug 2025

AIM: Adaptive Intra-Network Modulation for Balanced Multimodal Learning

Shu Shen

Chao Chen

Tong Zhang

233

27 Aug 2025

Two-Stage Framework for Efficient UAV-Based Wildfire Video Analysis with Adaptive Compression and Fire Source Detection

114

22 Aug 2025

VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models

174

16 Aug 2025

Generic Event Boundary Detection via Denoising Diffusion

133

16 Aug 2025

Versatile Video Tokenization with Generative 2D Gaussian Splatting

136

15 Aug 2025

DIVA-VQA: Detecting Inter-frame Variations in UGC Video QualityInternational Conference on Information Photonics (ICIP), 2025

Xinyi Wang

Angeliki V. Katsenou

David Bull

14 Aug 2025

ESSENTIAL: Episodic and Semantic Memory Integration for Video Class-Incremental Learning

183

14 Aug 2025

VGGSounder: Audio-Visual Evaluations for Foundation Models

Daniil Zverev

Thaddäus Wiedemer

Christian Schroeder de Witt

235

11 Aug 2025

Q-CLIP: Unleashing the Power of Vision-Language Models for Video Quality Assessment through Unified Cross-Modal Adaptation

121

08 Aug 2025

CRAM: Large-scale Video Continual Learning with Bootstrapped Compression

Shivani Mall

Joao F. Henriques

CLL VLM

160

07 Aug 2025

CLASP: Cross-modal Salient Anchor-based Semantic Propagation for Weakly-supervised Dense Audio-Visual Event Localization

139

06 Aug 2025

MoExDA: Domain Adaptation for Edge-based Action Recognition

Takuya Sugimoto

Ning Ding

Toru Tamaki

180

05 Aug 2025

Separating Shared and Domain-Specific LoRAs for Multi-Domain Learning

166

05 Aug 2025

SGCap: Decoding Semantic Group for Zero-shot Video Captioning

124

02 Aug 2025

StepAL: Step-aware Active Learning for Cataract Surgical VideosInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025

139

29 Jul 2025

MOVE: Motion-Guided Few-Shot Video Object Segmentation

243

29 Jul 2025

HumanSAM: Classifying Human-centric Forgery Videos in Human Spatial, Appearance, and Motion Anomaly

249

26 Jul 2025

Back to the Features: DINO as a Foundation for Video World Models

195

25 Jul 2025

Probing Multimodal Fusion in the Brain: The Dominance of Audiovisual Streams in Naturalistic Encoding

Hamid Abdollahi

Amir Hossein Mansouri Majoumerd

Amir Hossein Bagheri Baboukani

Amir Abolfazl Suratgar

Mohammad Bagher Menhaj

25 Jul 2025

Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows

Simin Huo

Ning Li

ViT

243

24 Jul 2025

Discovering and using Spelke segments

...

162

21 Jul 2025

ESG-Net: Event-Aware Semantic Guided Network for Dense Audio-Visual Event Localization

183

14 Jul 2025

Simplifying Traffic Anomaly Detection with Video Foundation Models

121

12 Jul 2025

Video-Guided Text-to-Music Generation Using Public Domain Movie Collections

257

01 Jul 2025

Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey and Benchmark

...

599

01 Jul 2025

Can Video Large Multimodal Models Think Like Doubters-or Double-Down: A Study on Defeasible Video Entailment

204

27 Jun 2025

Improving Token-based Object Detection with VideoIEEE Access (IEEE Access), 2025

Abhineet Singh

Nilanjan Ray

131

27 Jun 2025

Can Vision Language Models Understand Mimed Actions?Annual Meeting of the Association for Computational Linguistics (ACL), 2025

179

17 Jun 2025

Action Dubber: Timing Audible Actions via Inflectional Flow

174

16 Jun 2025

DejaVid: Encoder-Agnostic Learned Temporal Matching for Video ClassificationComputer Vision and Pattern Recognition (CVPR), 2025

Darryl Ho

Samuel Madden

AI4TS

198

14 Jun 2025

Exploring Audio Cues for Enhanced Test-Time Video Model Adaptation

134

14 Jun 2025

Improving Multimodal Learning Balance and Sufficiency through Data Remixing

Xiaoyu Ma

Hao Chen

Yongjian Deng

248

13 Jun 2025

Can Sound Replace Vision in LLaVA With Token Substitution?

341

12 Jun 2025