The Kinetics Human Action Video Dataset

19 May 2017

Sudheendra Vijayanarasimhan

Papers citing "The Kinetics Human Action Video Dataset"

50 / 2,152 papers shown

CMOSE: Comprehensive Multi-Modality Online Student Engagement Dataset with High-Quality Labels

272

14 Dec 2023

EZ-CLIP: Efficient Zeroshot Video Action Recognition

273

13 Dec 2023

Counterfactual World Modeling for Physical Dynamics Understanding

...

309

11 Dec 2023

A Cascaded Neural Network System For Rating Student Performance In Surgical Knot Tying SimulationIEEE International Conference on Healthcare Informatics (ICHI), 2023

227

09 Dec 2023

A Review of Machine Learning Methods Applied to Video Analysis SystemsAsilomar Conference on Signals, Systems and Computers (ACSSC), 2023

Marios S. Pattichis

Venkatesh Jatla

Alvaro E. Ullao Cerna

109

08 Dec 2023

LifelongMemory: Leveraging LLMs for Answering Queries in Long-form Egocentric Videos

Ying Wang

Yanlai Yang

Mengye Ren

252

07 Dec 2023

The Potential of Vision-Language Models for Content Moderation of Children's Videos

252

06 Dec 2023

From Detection to Action Recognition: An Edge-Based Pipeline for Robot Human Perception

141

06 Dec 2023

Deep Multimodal Fusion for Surgical Feedback Classification

De-An Huang

185

06 Dec 2023

DemaFormer: Damped Exponential Moving Average Transformer with Energy-Based Modeling for Temporal Language GroundingConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

See-Kiong Ng

283

05 Dec 2023

Adapting Short-Term Transformers for Action Detection in Untrimmed VideosComputer Vision and Pattern Recognition (CVPR), 2023

277

04 Dec 2023

Generating Action-conditioned Prompts for Open-vocabulary Video Action RecognitionACM Multimedia (ACM MM), 2023

Xiaojun Chang

Mengmeng Wang

Jingdong Wang

195

04 Dec 2023

Hulk: A Universal Knowledge Translator for Human-Centric TasksIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

...

709

04 Dec 2023

Towards Generalizable Zero-Shot Manipulation via Translating Human Interaction PlansIEEE International Conference on Robotics and Automation (ICRA), 2023

Homanga Bharadhwaj

Abhi Gupta

Vikash Kumar

Shubham Tulsiani

LM&Ro

316

01 Dec 2023

Just Add

π

! Pose Induced Video Transformers for Understanding Activities of Daily LivingComputer Vision and Pattern Recognition (CVPR), 2023

Dominick Reilly

Srijan Das

ViT

296

30 Nov 2023

CAST: Cross-Attention in Space and Time for Video Action RecognitionNeural Information Processing Systems (NeurIPS), 2023

341

30 Nov 2023

DEVIAS: Learning Disentangled Video Representations of Action and Scene for Holistic Video UnderstandingEuropean Conference on Computer Vision (ECCV), 2023

Kyungho Bae

Geo Ahn

Youngrae Kim

Jinwoo Choi

327

30 Nov 2023

Source-free Video Domain Adaptation by Learning from Noisy LabelsPattern Recognition (Pattern Recogn.), 2023

490

30 Nov 2023

VBench: Comprehensive Benchmark Suite for Video Generative ModelsComputer Vision and Pattern Recognition (CVPR), 2023

...

Dahua Lin

Yu Qiao

Ziwei Liu

VGen

514

968

29 Nov 2023

GeoDeformer: Geometric Deformable Transformer for Action Recognition

111

29 Nov 2023

Action-slot: Visual Action-centric Representations for Multi-label Atomic Activity Recognition in Traffic ScenesComputer Vision and Pattern Recognition (CVPR), 2023

361

29 Nov 2023

E-ViLM: Efficient Video-Language Model via Masked Video Modeling with Semantic Vector-Quantized Tokenizer

392

28 Nov 2023

End-to-End Temporal Action Detection with 1B Parameters Across 1000 FramesComputer Vision and Pattern Recognition (CVPR), 2023

346

28 Nov 2023

F4D: Factorized 4D Convolutional Neural Network for Efficient Video-level Representation LearningInternational Conference on Agents and Artificial Intelligence (ICAART), 2023

150

28 Nov 2023

Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating Video-based Large Language Models

Bin Lin

Lu Yuan

211

27 Nov 2023

Temporal Action Localization for Inertial-based Human Activity RecognitionProceedings of the ACM on Interactive Mobile Wearable and Ubiquitous Technologies (IMWUT), 2023

Marius Bock

Michael Moeller

Kristof Van Laerhoven

166

27 Nov 2023

Video Anomaly Detection via Spatio-Temporal Pseudo-Anomaly Generation : A Unified Approach

298

27 Nov 2023

Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning

303

27 Nov 2023

Align before Adapt: Leveraging Entity-to-Region Alignments for Generalizable Video Action RecognitionComputer Vision and Pattern Recognition (CVPR), 2023

287

27 Nov 2023

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image RecognitionComputer Vision and Pattern Recognition (CVPR), 2023

Sijie Zhao

Ying Shan

258

224

27 Nov 2023

Mug-STAN: Adapting Image-Language Pretrained Models for General Video Understanding

267

25 Nov 2023

AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question AnsweringEuropean Conference on Computer Vision (ECCV), 2023

307

25 Nov 2023

Decouple Content and Motion for Conditional Image-to-Video GenerationAAAI Conference on Artificial Intelligence (AAAI), 2023

217

24 Nov 2023

Input Compression with Positional Consistency for Efficient Training and Inference of Transformer Neural Networks

Amrit Nagarajan

Anand Raghunathan

VLM ViT

22 Nov 2023

Quantifying Impairment and Disease Severity Using AI Models Trained on Healthy Subjects

214

21 Nov 2023

GLAD: Global-Local View Alignment and Background Debiasing for Unsupervised Video Domain Adaptation with Large Domain GapIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Jinwoo Choi

220

21 Nov 2023

Fingerspelling PoseNet: Enhancing Fingerspelling Translation with Pose-Based Transformer Models

192

20 Nov 2023

A Multi-In-Single-Out Network for Video Frame Interpolation without Optical Flow

309

20 Nov 2023

HIDRO-VQA: High Dynamic Range Oracle for Video Quality Assessment

Shreshth Saini

Avinab Saha

A. Bovik

349

18 Nov 2023

Breaking Temporal Consistency: Generating Video Universal Adversarial Perturbations Using Image Models

267

17 Nov 2023

JWSign: A Highly Multilingual Corpus of Bible Translations for more Diversity in Sign Language Processing

322

16 Nov 2023

VideoCon: Robust Video-Language Alignment via Contrast CaptionsComputer Vision and Pattern Recognition (CVPR), 2023

137

15 Nov 2023

CLiF-VQA: Enhancing Video Quality Assessment by Incorporating High-Level Semantic Information related to Human FeelingsACM Multimedia (ACM MM), 2023

177

13 Nov 2023

PECoP: Parameter Efficient Continual Pretraining for Action Quality AssessmentIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Amirhossein Dadashzadeh

Shuchao Duan

Alan Whone

Majid Mirmehdi

238

11 Nov 2023

PolyMaX: General Dense Prediction with Mask TransformerIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

...

Liang-Chieh Chen

293

09 Nov 2023

CLearViD: Curriculum Learning for Video Description

Cheng-Yu Chuang

Pooyan Fazli

152

08 Nov 2023

OmniVec: Learning robust representations with cross modal sharingIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Siddharth Srivastava

Gaurav Sharma

SSL

288

07 Nov 2023

ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life VideosConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Nischal Reddy Chandra

Marjorie Freedman

R. Weischedel

Nanyun Peng

282

02 Nov 2023

POS: A Prompts Optimization Suite for Augmenting Text-to-Video Generation

169

02 Nov 2023

ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology LabNeural Information Processing Systems (NeurIPS), 2023

Baoxiong Jia

212

01 Nov 2023