Title
Masked Image Modeling: A Survey Vlad Hondru Florinel-Alin Croitoru Shervin Minaee Radu Tudor Ionescu N. Sebe 50 6 0 13 Aug 2024
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks Zhe Chen Jiannan Wu Wenhai Wang Weijie Su Guo Chen ... Bin Li Ping Luo Tong Lu Yu Qiao Jifeng Dai VLM MLLM 135 895 0 21 Dec 2023
MeSa: Masked, Geometric, and Supervised Pre-training for Monocular Depth Estimation Muhammad Osama Khan Junbang Liang Chun-Kai Wang Shan Yang Yu Lou MDE 38 4 0 06 Oct 2023
The effectiveness of MAE pre-pretraining for billion-scale pretraining Mannat Singh Quentin Duval Kalyan Vasudev Alwala Haoqi Fan Vaibhav Aggarwal ... Piotr Dollár Christoph Feichtenhofer Ross B. Girshick Rohit Girdhar Ishan Misra LRM 99 62 0 23 Mar 2023
Traj-MAE: Masked Autoencoders for Trajectory Prediction Hao Chen Jiaze Wang Kun Shao Furui Liu Jianye Hao Chenyong Guan Guangyong Chen Pheng-Ann Heng 50 37 0 12 Mar 2023
Masked Image Modeling with Local Multi-Scale Reconstruction Haoqing Wang Yehui Tang Yunhe Wang Jianyuan Guo Zhiwei Deng Kai Han 56 45 0 09 Mar 2023
Masked Images Are Counterfactual Samples for Robust Fine-tuning Yao Xiao Ziyi Tang Pengxu Wei Cong Liu Liang Lin 47 11 0 06 Mar 2023
PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling Yuan Liu Songyang Zhang Jiacheng Chen Kai-xiang Chen Dahua Lin 49 27 0 04 Mar 2023
Disjoint Masking with Joint Distillation for Efficient Masked Image Modeling Xin Ma Chang-Shu Liu Chunyu Xie Long Ye Yafeng Deng Xiang Ji 18 8 0 31 Dec 2022
Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning Colorado Reed Ritwik Gupta Shufan Li S. Brockman Christopher Funk Brian Clipp Kurt Keutzer Salvatore Candido M. Uyttendaele Trevor Darrell 107 165 0 30 Dec 2022
A Unified View of Masked Image Modeling Zhiliang Peng Li Dong Hangbo Bao QiXiang Ye Furu Wei VLM 52 35 0 19 Oct 2022
It Takes Two: Masked Appearance-Motion Modeling for Self-supervised Video Transformer Pre-training Yuxin Song Min Yang Wenhao Wu Dongliang He Fu Li Jingdong Wang ViT 85 8 0 11 Oct 2022
Exploring Target Representations for Masked Autoencoders Xingbin Liu Jinghao Zhou Tao Kong Xianming Lin Rongrong Ji 67 49 0 08 Sep 2022
MimCo: Masked Image Modeling Pre-training with Contrastive Teacher Qiang-feng Zhou Chaohui Yu Haowen Luo Zhibin Wang Hao Li VLM 48 20 0 07 Sep 2022
MaskViT: Masked Visual Pre-Training for Video Prediction Agrim Gupta Stephen Tian Yunzhi Zhang Jiajun Wu Roberto Martín-Martín Li Fei-Fei 91 110 0 23 Jun 2022
HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling Xiaosong Zhang Yunjie Tian Wei Huang QiXiang Ye Qi Dai Lingxi Xie Qi Tian 50 26 0 30 May 2022
A Closer Look at Self-Supervised Lightweight Vision Transformers Shaoru Wang Jin Gao Zeming Li Jian-jun Sun Weiming Hu ViT 60 40 0 28 May 2022
Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training Renrui Zhang Ziyu Guo Rongyao Fang Bingyan Zhao Dong Wang Yu Qiao Hongsheng Li Peng Gao 3DPC 164 241 0 28 May 2022
Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via Feature Distillation Yixuan Wei Han Hu Zhenda Xie Zheng-Wei Zhang Yue Cao Jianmin Bao Dong Chen B. Guo CLIP 78 123 0 27 May 2022
Revealing the Dark Secrets of Masked Image Modeling Zhenda Xie Zigang Geng Jingcheng Hu Zheng-Wei Zhang Han Hu Yue Cao VLM 183 105 0 26 May 2022
FaceMAE: Privacy-Preserving Face Recognition via Masked Autoencoders K. Wang Bo-Lu Zhao Xiangyu Peng Zheng Hua Zhu Jiankang Deng Xinchao Wang Hakan Bilen Yang You PICV 38 11 0 23 May 2022
Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality Xiang Li Wenhai Wang Lingfeng Yang Jian Yang 95 73 0 20 May 2022
Mask-guided Vision Transformer (MG-ViT) for Few-Shot Learning Yuzhong Chen Zhe Xiao Lin Zhao Lu Zhang Haixing Dai ... Tuo Zhang Changying Li Dajiang Zhu Tianming Liu Xi Jiang 36 18 0 20 May 2022
Integrally Migrating Pre-trained Transformer Encoder-decoders for Visual Object Detection Feng Liu Xiaosong Zhang Zhiliang Peng Zonghao Guo Fang Wan Xian-Wei Ji QiXiang Ye ObjD 37 20 0 19 May 2022
Oracle-MNIST: a Dataset of Oracle Characters for Benchmarking Machine Learning Algorithms Mei Wang Weihong Deng VLM 15 5 0 19 May 2022
Adversarial Masking for Self-Supervised Learning Yuge Shi N. Siddharth Philip H. S. Torr Adam R. Kosiorek SSL 40 81 0 31 Jan 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,337 0 11 Nov 2021
VideoGPT: Video Generation using VQ-VAE and Transformers Wilson Yan Yunzhi Zhang Pieter Abbeel A. Srinivas ViT VGen 237 482 0 20 Apr 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,735 0 24 Feb 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 845 0 17 Feb 2021
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 279 39,083 0 01 Sep 2014