Beyond Masking: Demystifying Token-Based Pre-Training for Vision Transformers

27 March 2022

ArXiv (abs)PDF HTML Github (26★)

Papers citing "Beyond Masking: Demystifying Token-Based Pre-Training for Vision Transformers"

16 / 16 papers shown

Understanding and Enhancing Mask-Based Pretraining towards Universal Representations

187

25 Sep 2025

Prompt-based Dynamic Token Pruning for Efficient Segmentation of Medical Images

283

19 Jun 2025

Masked Angle-Aware Autoencoder for Remote Sensing ImagesEuropean Conference on Computer Vision (ECCV), 2024

372

04 Aug 2024

Pre-training with Random Orthogonal Projection Image ModelingInternational Conference on Learning Representations (ICLR), 2023

403

28 Oct 2023

Deblurring Masked Autoencoder is Better Recipe for Ultrasound Image RecognitionInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2023

290

14 Jun 2023

Correlational Image Modeling for Self-Supervised Visual Pre-TrainingComputer Vision and Pattern Recognition (CVPR), 2023

402

22 Mar 2023

Remote Sensing Scene Classification with Masked Image Modeling (MIM)Remote Sensing (RS), 2023

Liya Wang

A. Tien

294

28 Feb 2023

Beyond Pretrained Features: Noisy Image Modeling Provides Adversarial DefenseNeural Information Processing Systems (NeurIPS), 2023

551

02 Feb 2023

Aerial Image Object Detection With Vision Transformer Detector (ViTDet)IEEE International Geoscience and Remote Sensing Symposium (IGARSS), 2023

Liya Wang

A. Tien

487

28 Jan 2023

Autoencoders as Cross-Modal Teachers: Can Pretrained 2D Image Transformers Help 3D Representation Learning?International Conference on Learning Representations (ICLR), 2022

410

150

16 Dec 2022

Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token MigrationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Yaowei Wang

251

23 Nov 2022

A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond

Kang Zhang

In So Kweon

SSL

315

100

30 Jul 2022

HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling

317

30 May 2022

Corrupted Image Modeling for Self-Supervised Visual Pre-TrainingInternational Conference on Learning Representations (ICLR), 2022

396

07 Feb 2022

Context Autoencoder for Self-Supervised Representation LearningInternational Journal of Computer Vision (IJCV), 2022

Mingyu Ding

Shentong Mo

Jingdong Wang

635

477

07 Feb 2022

Exploring Complicated Search Spaces with Interleaving-Free SamplingIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2021

260

05 Dec 2021