VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

23 March 2022

Papers citing "VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training"

50 / 712 papers shown

Title
CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets Jiang Yang Sheng Guo Gangshan Wu Limin Wang VLM 23 6 0 13 Feb 2023
AIM: Adapting Image Models for Efficient Video Action Recognition Taojiannan Yang Yi Zhu Yusheng Xie Aston Zhang C. L. P. Chen Mu Li ViT 39 143 0 06 Feb 2023
Multi-View Masked World Models for Visual Robotic Manipulation Younggyo Seo Junsup Kim Stephen James Kimin Lee Jinwoo Shin Pieter Abbeel VGen 17 54 0 05 Feb 2023
Representation Deficiency in Masked Language Modeling Yu Meng Jitin Krishnan Sinong Wang Qifan Wang Yuning Mao Han Fang Marjan Ghazvininejad Jiawei Han Luke Zettlemoyer 47 7 0 04 Feb 2023
Aerial Image Object Detection With Vision Transformer Detector (ViTDet) Liya Wang A. Tien 30 6 0 28 Jan 2023
Summarize the Past to Predict the Future: Natural Language Descriptions of Context Boost Multimodal Object Interaction Anticipation Razvan-George Pasca Alexey Gavryushin Muhammad Hamza Yen-Ling Kuo Kaichun Mo Luc Van Gool Otmar Hilliges Xi Wang 22 14 0 22 Jan 2023
Ti-MAE: Self-Supervised Masked Time Series Autoencoders Zhe Li Zhongwen Rao Lujia Pan Pengyun Wang Zenglin Xu AI4TS 18 48 0 21 Jan 2023
CMAE-V: Contrastive Masked Autoencoders for Video Action Recognition Cheng Lu Xiaojie Jin Zhicheng Huang Qibin Hou Mingg-Ming Cheng Jiashi Feng 30 8 0 15 Jan 2023
A Survey on Self-supervised Learning: Algorithms, Applications, and Future Trends Jie Gui Tuo Chen Jing Zhang Qiong Cao Zhe Sun Haoran Luo Dacheng Tao 24 117 0 13 Jan 2023
STPrivacy: Spatio-Temporal Privacy-Preserving Action Recognition Ming Li Xiangyu Xu Hehe Fan Pan Zhou Jun Liu Jia-Wei Liu Jiahe Li Jussi Keppo Mike Zheng Shou Shuicheng Yan ViT PICV 32 13 0 08 Jan 2023
Ego-Only: Egocentric Action Detection without Exocentric Transferring Huiyu Wang Mitesh Singh Lorenzo Torresani EgoV 61 22 0 03 Jan 2023
Ponder: Point Cloud Pre-training via Neural Rendering Di Huang Sida Peng Tong He Honghui Yang Xiaowei Zhou Wanli Ouyang SSL 3DPC 20 40 0 31 Dec 2022
Transformers in Action Recognition: A Review on Temporal Modeling Elham Shabaninia Hossein Nezamabadi-pour Fatemeh Shafizadegan ViT 19 8 0 29 Dec 2022
Similarity Contrastive Estimation for Image and Video Soft Contrastive Self-Supervised Learning J. Denize Jaonary Rabarisoa Astrid Orcesi Romain Hérault SSL 14 5 0 21 Dec 2022
Randomized Quantization: A Generic Augmentation for Data Agnostic Self-supervised Learning Huimin Wu Chenyang Lei Xiao Sun Pengju Wang Qifeng Chen Kwang-Ting Cheng Stephen Lin Zhirong Wu MQ 21 5 0 19 Dec 2022
Vision Transformers are Parameter-Efficient Audio-Visual Learners Yan-Bo Lin Yi-Lin Sung Jie Lei Mohit Bansal Gedas Bertasius 26 72 0 15 Dec 2022
Policy Adaptation from Foundation Model Feedback Yuying Ge Annabella Macaluso Erran L. Li Ping Luo Xiaolong Wang LM&Ro 14 11 0 14 Dec 2022
THMA: Tencent HD Map AI System for Creating HD Map Annotations Kun Tang Xu Cao Zhipeng Cao Tongxi Zhou Erlong Li ... Shengtao Zou Chang-ling Liu Shuqi Mei Elena Sizikova Chao Zheng 6 12 0 14 Dec 2022
Jointly Learning Visual and Auditory Speech Representations from Raw Data A. Haliassos Pingchuan Ma Rodrigo Mira Stavros Petridis M. Pantic SSL 32 48 0 12 Dec 2022
Recurrent Vision Transformers for Object Detection with Event Cameras Mathias Gehrig Davide Scaramuzza 29 117 0 11 Dec 2022
VindLU: A Recipe for Effective Video-and-Language Pretraining Feng Cheng Xizi Wang Jie Lei David J. Crandall Mohit Bansal Gedas Bertasius VLM 27 78 0 09 Dec 2022
Audiovisual Masked Autoencoders Mariana-Iuliana Georgescu Eduardo Fonseca Radu Tudor Ionescu Mario Lucic Cordelia Schmid Anurag Arnab SSL 22 43 0 09 Dec 2022
Deep Architectures for Content Moderation and Movie Content Rating Fatih Çagatay Akyön A. Temi̇zel 28 4 0 08 Dec 2022
Masked Video Distillation: Rethinking Masked Feature Modeling for Self-supervised Video Representation Learning Rui Wang Dongdong Chen Zuxuan Wu Yinpeng Chen Xiyang Dai Mengchen Liu Lu Yuan Yu-Gang Jiang VGen 19 86 0 08 Dec 2022
PromptonomyViT: Multi-Task Prompt Learning Improves Video Transformers using Synthetic Scene Data Roei Herzig Ofir Abramovich Elad Ben-Avraham Assaf Arbelle Leonid Karlinsky Ariel Shamir Trevor Darrell Amir Globerson 32 16 0 08 Dec 2022
SimVTP: Simple Video Text Pre-training with Masked Autoencoders Yue Ma Tianyu Yang Yin Shan Xiu Li 25 27 0 07 Dec 2022
Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning A. Piergiovanni Weicheng Kuo A. Angelova ViT 29 54 0 06 Dec 2022
InternVideo: General Video Foundation Models via Generative and Discriminative Learning Yi Wang Kunchang Li Yizhuo Li Yinan He Bingkun Huang ... Junting Pan Jiashuo Yu Yali Wang Limin Wang Yu Qiao VLM VGen 38 307 0 06 Dec 2022
GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds Honghui Yang Tong He Jiaheng Liu Huaguan Chen Boxi Wu Binbin Lin Xiaofei He Wanli Ouyang 36 58 0 06 Dec 2022
Masked Contrastive Pre-Training for Efficient Video-Text Retrieval Fangxun Shu Biaolong Chen Yue Liao Shuwen Xiao Wenyu Sun Xiaobo Li Yousong Zhu Jinqiao Wang Si Liu CLIP 22 11 0 02 Dec 2022
Scaling Language-Image Pre-training via Masking Yanghao Li Haoqi Fan Ronghang Hu Christoph Feichtenhofer Kaiming He CLIP VLM 14 316 0 01 Dec 2022
Spatio-Temporal Crop Aggregation for Video Representation Learning Sepehr Sameni Simon Jenni Paolo Favaro 13 3 0 30 Nov 2022
XKD: Cross-modal Knowledge Distillation with Domain Alignment for Video Representation Learning Pritam Sarkar Ali Etemad 19 21 0 25 Nov 2022
SVFormer: Semi-supervised Video Transformer for Action Recognition Zhen Xing Qi Dai Hang-Rui Hu Jingjing Chen Zuxuan Wu Yu-Gang Jiang ViT 22 67 0 23 Nov 2022
Mitigating and Evaluating Static Bias of Action Representations in the Background and the Foreground Haoxin Li Yuan Liu Hanwang Zhang Boyang Li 25 15 0 23 Nov 2022
Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation Tsu-jui Fu Licheng Yu Ning Zhang Cheng-Yang Fu Jong-Chyi Su William Yang Wang Sean Bell VGen 30 37 0 23 Nov 2022
SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training Yuanze Lin Chen Wei Huiyu Wang Alan Yuille Cihang Xie 3DGS 26 15 0 21 Nov 2022
EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens Sun-Kyoo Hwang Jaehong Yoon Youngwan Lee S. Hwang 21 6 0 19 Nov 2022
Masked Autoencoders for Egocentric Video Understanding @ Ego4D Challenge 2022 Jiachen Lei Shuang Ma Zhongjie Ba Sai H. Vemprala Ashish Kapoor Kui Ren EgoV 6 0 0 18 Nov 2022
UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer Kunchang Li Yali Wang Yinan He Yizhuo Li Yi Wang Limin Wang Yu Qiao ViT 18 106 0 17 Nov 2022
InternVideo-Ego4D: A Pack of Champion Solutions to Ego4D Challenges Guo Chen Sen Xing Zhe Chen Yi Wang Kunchang Li ... Hongjie Zhang Tong Lu Yali Wang Liming Wang Yu Qiao 33 46 0 17 Nov 2022
Exploring adaptation of VideoMAE for Audio-Visual Diarization & Social @ Ego4d Looking at me Challenge Yinan He Guo Chen 12 0 0 17 Nov 2022
AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with Masked Autoencoders W. G. C. Bandara Naman Patel A. Gholami Mehdi Nikkhah M. Agrawal Vishal M. Patel 23 39 0 16 Nov 2022
Token Turing Machines Michael S. Ryoo K. Gopalakrishnan Kumara Kahatapitiya Ted Xiao Kanishka Rao Austin Stone Yao Lu Julian Ibarz Anurag Arnab 27 21 0 16 Nov 2022
Exploring State Change Capture of Heterogeneous Backbones @ Ego4D Hands and Objects Challenge 2022 Yin-Dong Zheng Guo Chen Jiahao Wang Tong Lu Liming Wang 26 0 0 16 Nov 2022
EVA: Exploring the Limits of Masked Visual Representation Learning at Scale Yuxin Fang Wen Wang Binhui Xie Quan-Sen Sun Ledell Yu Wu Xinggang Wang Tiejun Huang Xinlong Wang Yue Cao VLM CLIP 49 671 0 14 Nov 2022
Point-DAE: Denoising Autoencoders for Self-supervised Point Cloud Learning Yabin Zhang Jiehong Lin Ruihuang Li K. Jia Lei Zhang 3DPC 17 6 0 13 Nov 2022
MARLIN: Masked Autoencoder for facial video Representation LearnINg Zhixi Cai Shreya Ghosh Kalin Stefanov Abhinav Dhall Jianfei Cai Hamid Rezatofighi Reza Haffari Munawar Hayat ViT CVBM 15 60 0 12 Nov 2022
3D-CSL: self-supervised 3D context similarity learning for Near-Duplicate Video Retrieval Rui Deng Qianyu Wu Yuke Li ViT 15 4 0 10 Nov 2022
Prior-enhanced Temporal Action Localization using Subject-aware Spatial Attention Yifan Liu Youbao Tang Ning Zhang Ruei-Sung Lin Haoqian Wang 23 0 0 10 Nov 2022