ActionHub: A Large-scale Action Video Description Dataset for Zero-shot
Action Recognition

ActionHub: A Large-scale Action Video Description Dataset for Zero-shot Action Recognition

22 January 2024

Papers citing "ActionHub: A Large-scale Action Video Description Dataset for Zero-shot Action Recognition"

12 / 12 papers shown

Title
Modeling Multiple Normal Action Representations for Error Detection in Procedural Tasks Wei-Jin Huang Yuan-Ming Li Zhi-Wei Xia Yu-Ming Tang Kun-Yu Lin Jian-Fang Hu Wei-Shi Zheng 41 0 0 28 Mar 2025
Can LVLMs Describe Videos like Humans? A Five-in-One Video Annotations Benchmark for Better Human-Machine Comparison Shiyu Hu Xuchen Li X. Li Jing Zhang Yipei Wang Xin Zhao Kang Hao Cheong VLM 22 1 0 20 Oct 2024
Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation Jiaming Zhou Teli Ma Kun-Yu Lin Ronghe Qiu Zifan Wang Junwei Liang 41 3 0 20 Jun 2024
Multi-dataset Training of Transformers for Robust Action Recognition Junwei Liang Enwei Zhang Jun Zhang Chunhua Shen ViT 31 11 0 26 Sep 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 385 4,010 0 28 Jan 2022
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 221 1,017 0 13 Oct 2021
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding Hu Xu Gargi Ghosh Po-Yao (Bernie) Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Florian Metze Luke Zettlemoyer Christoph Feichtenhofer CLIP VLM 245 554 0 28 Sep 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 278 1,939 0 09 Feb 2021
Rethinking Zero-shot Video Classification: End-to-end Training for Realistic Applications Biagio Brattoli Joseph Tighe Fedor Zhdanov Pietro Perona Krzysztof Chalupka VLM 129 127 0 03 Mar 2020
TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval Jie Lei Licheng Yu Tamara L. Berg Mohit Bansal 106 268 0 24 Jan 2020
Learning Attributes Equals Multi-Source Domain Generalization Chuang Gan Tianbao Yang Boqing Gong OOD 150 197 0 03 May 2016
Efficient Estimation of Word Representations in Vector Space Tomáš Mikolov Kai Chen G. Corrado J. Dean 3DV 228 31,150 0 16 Jan 2013