MGMAE: Motion Guided Masking for Video Masked Autoencoding

21 August 2023

Yu Qiao

Papers citing "MGMAE: Motion Guided Masking for Video Masked Autoencoding"

27 / 27 papers shown

Title
SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning Fida Mohammad Thoker Letian Jiang Chen Zhao Piyush Bagad Hazel Doughty Bernard Ghanem Cees G. M. Snoek ViT SSL 46 0 0 08 Apr 2025
Safety Modulation: Enhancing Safety in Reinforcement Learning through Cost-Modulated Rewards Hanping Zhang Yuhong Guo OffRL 26 0 0 03 Apr 2025
SMILE: Infusing Spatial and Motion Semantics in Masked Video Learning Fida Mohammad Thoker Letian Jiang Chen Zhao Bernard Ghanem 45 0 0 01 Apr 2025
Structured-Noise Masked Modeling for Video, Audio and Beyond Aritra Bhowmik Fida Mohammad Thoker Carlos Hinojosa Bernard Ghanem Cees G. M. Snoek VGen 56 0 0 20 Mar 2025
Extending Video Masked Autoencoders to 128 frames N. B. Gundavarapu Luke Friedman Raghav Goyal Chaitra Hegde Eirikur Agustsson ... Mikhail Sirotenko Ming Yang Tobias Weyand Boqing Gong Leonid Sigal 67 1 0 20 Nov 2024
KDC-MAE: Knowledge Distilled Contrastive Mask Auto-Encoder Maheswar Bora Saurabh Atreya Aritra Mukherjee Abhijit Das 66 0 0 19 Nov 2024
SOAR: Self-supervision Optimized UAV Action Recognition with Efficient Object-Aware Pretraining Ruiqi Xian Xiyang Wu Tianrui Guan Xijun Wang Boqing Gong Dinesh Manocha ViT 17 0 0 26 Sep 2024
Dynamic and Compressive Adaptation of Transformers From Images to Videos Guozhen Zhang Jingyu Liu Shengming Cao Xiaotong Zhao Kevin Zhao Kai Ma Limin Wang ViT 19 1 0 13 Aug 2024
Masked Image Modeling: A Survey Vlad Hondru Florinel-Alin Croitoru Shervin Minaee Radu Tudor Ionescu N. Sebe 45 6 0 13 Aug 2024
Text-Guided Video Masked Autoencoder D. Fan Jue Wang Shuai Liao Zhikang Zhang Vimal Bhat Xinyu Li VGen 16 0 0 01 Aug 2024
SIGMA:Sinkhorn-Guided Masked Video Modeling Mohammadreza Salehi Michael Dorkenwald Fida Mohammad Thoker E. Gavves Cees G. M. Snoek Yuki M. Asano 34 0 0 22 Jul 2024
CrowdMAC: Masked Crowd Density Completion for Robust Crowd Density Forecasting Ryoske Fujii Ryo Hachiuma Hideo Saito 29 1 0 20 Jul 2024
Predicting Long-horizon Futures by Conditioning on Geometry and Time Tarasha Khurana Deva Ramanan AI4TS 18 0 0 17 Apr 2024
vid-TLDR: Training Free Token merging for Light-weight Video Transformer Joonmyung Choi Sanghyeok Lee Jaewon Chu Minhyuk Choi Hyunwoo J. Kim MoMe ViT 32 3 0 20 Mar 2024
FocusMAE: Gallbladder Cancer Detection from Ultrasound Videos with Focused Masked Autoencoders Soumen Basu Mayuna Gupta Chetan Madan Pankaj Gupta Chetan Arora 20 2 0 13 Mar 2024
MV2MAE: Multi-View Video Masked Autoencoders Ketul Shah Robert Crandall Jie Xu Peng Zhou Marian George Mayank Bansal Rama Chellappa 15 0 0 29 Jan 2024
Masked Modeling for Self-supervised Representation Learning on Vision and Beyond Siyuan Li Luyuan Zhang Zedong Wang Di Wu Lirong Wu ... Jun-Xiong Xia Cheng Tan Yang Liu Baigui Sun Stan Z. Li SSL 23 13 0 31 Dec 2023
Bootstrap Masked Visual Modeling via Hard Patches Mining Haochen Wang Junsong Fan Yuxi Wang Kaiyou Song Tiancai Wang Xiangyu Zhang Zhaoxiang Zhang 26 5 0 21 Dec 2023
T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning Weijie Wei F. Karimi Nejadasl Theo Gevers Martin R. Oswald 3DPC 15 1 0 15 Dec 2023
Asymmetric Masked Distillation for Pre-Training Small Foundation Models Zhiyu Zhao Bingkun Huang Sen Xing Gangshan Wu Yu Qiao Limin Wang 19 5 0 06 Nov 2023
Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation Guozhen Zhang Yuhan Zhu Hongya Wang Youxin Chen Gangshan Wu Limin Wang 54 82 0 01 Mar 2023
EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens Sun-Kyoo Hwang Jaehong Yoon Youngwan Lee S. Hwang 8 5 0 19 Nov 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 255 7,337 0 11 Nov 2021
BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment Kelvin C. K. Chan Shangchen Zhou Xiangyu Xu Chen Change Loy 144 314 0 27 Apr 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 263 3,538 0 24 Feb 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 272 1,939 0 09 Feb 2021
Relaxed Transformer Decoders for Direct Action Proposal Generation Jing Tan Jiaqi Tang Limin Wang Gangshan Wu ViT 67 175 0 03 Feb 2021