v1v2 (latest)

The "something something" video database for learning and evaluating visual common sense

IEEE International Conference on Computer Vision (ICCV), 2017

13 June 2017

Raghav Goyal

Samira Ebrahimi Kahou

Moritz Mueller-Freitag

Papers citing "The "something something" video database for learning and evaluating visual common sense"

50 / 1,013 papers shown

The Visual Experience Dataset: Over 200 Recorded Hours of Integrated Eye Movement, Odometry, and Egocentric Video

...

143

15 Feb 2024

TDViT: Temporal Dilated Video Transformer for Dense Video Tasks

171

14 Feb 2024

Advancing Human Action Recognition with Foundation Models trained on Unlabeled Public Videos

309

14 Feb 2024

Learning by Watching: A Review of Video-based Learning Approaches for Robot ManipulationIEEE Access (IEEE Access), 2024

Chrisantus Eze

Christopher Crick

SSL

466

11 Feb 2024

VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language NavigationAAAI Conference on Artificial Intelligence (AAAI), 2024

Jialu Li

Aishwarya Padmakumar

Gaurav Sukhatme

Mohit Bansal

323

05 Feb 2024

FROSTER: Frozen CLIP Is A Strong Teacher for Open-Vocabulary Action RecognitionInternational Conference on Learning Representations (ICLR), 2024

250

05 Feb 2024

Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning

Haoyi Zhu

Yating Wang

Di Huang

Weicai Ye

Wanli Ouyang

Tong He

SSL 3DPC

348

04 Feb 2024

Self-supervised learning of video representations from a child's perspective

106

01 Feb 2024

Computer Vision for Primate Behavior Analysis in the Wild

...

401

29 Jan 2024

MV2MAE: Multi-View Video Masked Autoencoders

247

29 Jan 2024

Multi-model learning by sequential reading of untrimmed videos for action recognition

Kodai Kamiya

Toru Tamaki

261

26 Jan 2024

M2-CLIP: A Multimodal, Multi-task Adapting Framework for Video Action RecognitionAAAI Conference on Artificial Intelligence (AAAI), 2024

Mengmeng Wang

Jun Chen

Guang Dai

Jingdong Wang

Yong-Jin Liu

VLM

205

22 Jan 2024

Pixel-Wise Recognition for Holistic Surgical Scene Understanding

Nicolás Ayobi

Santiago Rodríguez

Alejandra Pérez

...

217

20 Jan 2024

Understanding Video Transformers via Universal Concept Discovery

M. Kowal

Achal Dave

Rares Andrei Ambrus

Adrien Gaidon

Konstantinos G. Derpanis

P. Tokmakov

ViT

419

19 Jan 2024

Learning to Visually Connect Actions and their Effects

Eric Peh

Paritosh Parmar

Basura Fernando

417

19 Jan 2024

TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object UnderstandingComputer Vision and Pattern Recognition (CVPR), 2024

Yuxiang Zhang

Yebin Liu

Li Yi

367

16 Jan 2024

$Multi-view Distillation based on Multi-modal Fusion for Few-shot Action Recognition(CLIP-$\mathrm{M^2}$DF)$

Multi-view Distillation based on Multi-modal Fusion for Few-shot Action Recognition(CLIP-

\mathrm{M^2}

203

16 Jan 2024

FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos

199

15 Jan 2024

Collaboratively Self-supervised Video Representation Learning for Action RecognitionIEEE Transactions on Information Forensics and Security (IEEE TIFS), 2024

376

15 Jan 2024

Motion Guided Token Compression for Efficient Masked Video Modeling

273

10 Jan 2024

Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for
Memory-Efficient Finetuning

^2

Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient FinetuningComputer Vision and Pattern Recognition (CVPR), 2024

Abdulmohsen Alghannam

Jitendra Malik

Guohao Li

229

08 Jan 2024

Commonsense for Zero-Shot Natural Language Video LocalizationAAAI Conference on Artificial Intelligence (AAAI), 2023

Meghana Holla

Ismini Lourentzou

340

29 Dec 2023

Video Understanding with Large Language Models: A Survey

...

714

167

29 Dec 2023

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

282

271

28 Dec 2023

Open-Vocabulary Video Relation Extraction

180

25 Dec 2023

VideoPoet: A Large Language Model for Zero-Shot Video Generation

...

532

400

21 Dec 2023

Bootstrap Masked Visual Modeling via Hard Patches Mining

Xiangyu Zhang

227

21 Dec 2023

No More Shortcuts: Realizing the Potential of Temporal Self-Supervision

I. Dave

Simon Jenni

Mubarak Shah

178

20 Dec 2023

EZ-CLIP: Efficient Zeroshot Video Action Recognition

273

13 Dec 2023

PEEKABOO: Interactive Video Generation via Masked-DiffusionComputer Vision and Pattern Recognition (CVPR), 2023

276

12 Dec 2023

Early Action Recognition with Action Prototypes

130

11 Dec 2023

Grounded Question-Answering in Long Egocentric Videos

Shangzhe Di

Weidi Xie

501

11 Dec 2023

Counterfactual World Modeling for Physical Dynamics Understanding

...

310

11 Dec 2023

Dexterous Functional GraspingConference on Robot Learning (CoRL), 2023

346

05 Dec 2023

Generating Action-conditioned Prompts for Open-vocabulary Video Action RecognitionACM Multimedia (ACM MM), 2023

Xiaojun Chang

Mengmeng Wang

Jingdong Wang

195

04 Dec 2023

$Consistency Prototype Module and Motion Compensation for Few-Shot Action Recognition (CLIP-CP$\mathbf{M^2}$C)$

Consistency Prototype Module and Motion Compensation for Few-Shot Action Recognition (CLIP-CP

\mathbf{M^2}

274

02 Dec 2023

Sequential Modeling Enables Scalable Learning for Large Vision ModelsComputer Vision and Pattern Recognition (CVPR), 2023

Yutong Bai

348

226

01 Dec 2023

Towards Generalizable Zero-Shot Manipulation via Translating Human Interaction PlansIEEE International Conference on Robotics and Automation (ICRA), 2023

Homanga Bharadhwaj

Abhi Gupta

Vikash Kumar

Shubham Tulsiani

LM&Ro

316

01 Dec 2023

Just Add

π

! Pose Induced Video Transformers for Understanding Activities of Daily LivingComputer Vision and Pattern Recognition (CVPR), 2023

Dominick Reilly

Srijan Das

ViT

296

30 Nov 2023

A Video is Worth 10,000 Words: Training and Benchmarking with Diverse Captions for Better Long Video RetrievalIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

288

30 Nov 2023

CAST: Cross-Attention in Space and Time for Video Action RecognitionNeural Information Processing Systems (NeurIPS), 2023

341

30 Nov 2023

DEVIAS: Learning Disentangled Video Representations of Action and Scene for Holistic Video UnderstandingEuropean Conference on Computer Vision (ECCV), 2023

Kyungho Bae

Geo Ahn

Youngrae Kim

Jinwoo Choi

327

30 Nov 2023

OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video RecognitionComputer Vision and Pattern Recognition (CVPR), 2023

383

30 Nov 2023

VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language ModelsEuropean Conference on Computer Vision (ECCV), 2023

Shicheng Li

Lei Li

227

29 Nov 2023

F4D: Factorized 4D Convolutional Neural Network for Efficient Video-level Representation LearningInternational Conference on Agents and Artificial Intelligence (ICAART), 2023

150

28 Nov 2023

Panoptic Video Scene Graph GenerationComputer Vision and Pattern Recognition (CVPR), 2023

Xiangtai Li

...

Ziwei Liu

317

28 Nov 2023

MVBench: A Comprehensive Multi-modal Video Understanding BenchmarkComputer Vision and Pattern Recognition (CVPR), 2023

...

Ping Luo

Yu Qiao

664

857

28 Nov 2023

Towards Weakly Supervised End-to-end Learning for Long-video Action Recognition

322

28 Nov 2023

SEED-Bench-2: Benchmarking Multimodal Large Language Models

Ying Shan

184

28 Nov 2023

Self-Supervised Learning of Whole and Component-Based Semantic Representations for Person Re-IdentificationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Siyuan Huang

Yifan Zhou

Ram Prabhakar Kathirvel

Yuxiang Guo

132

27 Nov 2023