A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond

30 July 2022

Kang Zhang

In So Kweon

SSL

ArXiv PDF HTML

Papers citing "A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond"

20 / 20 papers shown

Title
AMNS: Attention-Weighted Selective Mask and Noise Label Suppression for Text-to-Image Person Retrieval Runqing Zhang Xue Zhou 29 1 0 10 Sep 2024
Membership Inference Attack Against Masked Image Modeling Z. Li Xinlei He Ning Yu Yang Zhang 32 1 0 13 Aug 2024
MEGA: Masked Generative Autoencoder for Human Mesh Recovery Guénolé Fiche Simon Leglaive Xavier Alameda-Pineda Francesc Moreno-Noguer 3DH 54 1 0 29 May 2024
A Simple yet Effective Network based on Vision Transformer for Camouflaged Object and Salient Object Detection Chao Hao Zitong Yu Xin Liu Jun Xu Huanjing Yue Jingyu Yang ViT 18 6 0 29 Feb 2024
Motif-aware Attribute Masking for Molecular Graph Pre-training Eric Inae Gang Liu Meng-Long Jiang AI4CE 35 14 0 08 Sep 2023
A vector quantized masked autoencoder for audiovisual speech emotion recognition Samir Sadok Simon Leglaive Renaud Séguier SSL 52 6 0 05 May 2023
Improved Representation Learning Through Tensorized Autoencoders P. Esser Satyaki Mukherjee Mahalakshmi Sabanayagam D. Ghoshdastidar SSL GNN OOD DRL 27 0 0 02 Dec 2022
Masked World Models for Visual Control Younggyo Seo Danijar Hafner Hao Liu Fangchen Liu Stephen James Kimin Lee Pieter Abbeel OffRL 74 144 0 28 Jun 2022
MaskViT: Masked Visual Pre-Training for Video Prediction Agrim Gupta Stephen Tian Yunzhi Zhang Jiajun Wu Roberto Martín-Martín Li Fei-Fei 91 110 0 23 Jun 2022
HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling Xiaosong Zhang Yunjie Tian Wei Huang QiXiang Ye Qi Dai Lingxi Xie Qi Tian 50 26 0 30 May 2022
Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training Renrui Zhang Ziyu Guo Rongyao Fang Bingyan Zhao Dong Wang Yu Qiao Hongsheng Li Peng Gao 3DPC 167 241 0 28 May 2022
Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via Feature Distillation Yixuan Wei Han Hu Zhenda Xie Zheng-Wei Zhang Yue Cao Jianmin Bao Dong Chen B. Guo CLIP 78 123 0 27 May 2022
Continual Barlow Twins: continual self-supervised learning for remote sensing semantic segmentation V. Marsocci Simone Scardapane CLL 11 25 0 23 May 2022
Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality Xiang Li Wenhai Wang Lingfeng Yang Jian Yang 95 73 0 20 May 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,337 0 11 Nov 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 283 5,723 0 29 Apr 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 263 3,538 0 24 Feb 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,735 0 24 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 2,875 0 11 Feb 2021
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation C. Qi Hao Su Kaichun Mo Leonidas J. Guibas 3DH 3DPC 3DV PINN 210 13,886 0 02 Dec 2016