Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN

Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN

27 May 2022

Siyuan Li

Papers citing "Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN"

17 / 17 papers shown

Title
Towards Homogeneous Lexical Tone Decoding from Heterogeneous Intracranial Recordings Di Wu Siyuan Li Chen Feng Lu Cao Y. Zhang Jie Yang Mohamad Sawan 20 0 0 13 Oct 2024
Masked Image Modeling: A Survey Vlad Hondru Florinel-Alin Croitoru Shervin Minaee Radu Tudor Ionescu N. Sebe 61 6 0 13 Aug 2024
Look Ahead or Look Around? A Theoretical Comparison Between Autoregressive and Masked Pretraining Qi Zhang Tianqi Du Haotian Huang Yifei Wang Yisen Wang 27 3 0 01 Jul 2024
GeoMAE: Masked Geometric Target Prediction for Self-supervised Point Cloud Pre-Training Xiaoyu Tian Haoxi Ran Yue Wang Hang Zhao 3DPC ViT 16 38 0 15 May 2023
CMAE-V: Contrastive Masked Autoencoders for Video Action Recognition Cheng Lu Xiaojie Jin Zhicheng Huang Qibin Hou Mingg-Ming Cheng Jiashi Feng 30 8 0 15 Jan 2023
A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond Chaoning Zhang Chenshuang Zhang Junha Song John Seon Keun Yi Kang Zhang In So Kweon SSL 39 70 0 30 Jul 2022
Contrastive Masked Autoencoders are Stronger Vision Learners Zhicheng Huang Xiaojie Jin Cheng Lu Qibin Hou Mingg-Ming Cheng Dongmei Fu Xiaohui Shen Jiashi Feng 26 146 0 27 Jul 2022
Harnessing Hard Mixed Samples with Decoupled Regularizer Zicheng Liu Siyuan Li Ge Wang Cheng Tan Lirong Wu Stan Z. Li 51 17 0 21 Mar 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,337 0 11 Nov 2021
Discovering and Explaining the Representation Bottleneck of DNNs Huiqi Deng Qihan Ren Hao Zhang Quanshi Zhang 27 59 0 11 Nov 2021
ResNet strikes back: An improved training procedure in timm Ross Wightman Hugo Touvron Hervé Jégou AI4TS 207 477 0 01 Oct 2021
Intriguing Properties of Vision Transformers Muzammal Naseer Kanchana Ranasinghe Salman Khan Munawar Hayat F. Khan Ming-Hsuan Yang ViT 248 618 0 21 May 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 283 5,723 0 29 Apr 2021
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text Hassan Akbari Liangzhe Yuan Rui Qian Wei-Hong Chuang Shih-Fu Chang Yin Cui Boqing Gong ViT 240 573 0 22 Apr 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,735 0 24 Feb 2021
Improved Baselines with Momentum Contrastive Learning Xinlei Chen Haoqi Fan Ross B. Girshick Kaiming He SSL 238 3,359 0 09 Mar 2020
Semantic Understanding of Scenes through the ADE20K Dataset Bolei Zhou Hang Zhao Xavier Puig Tete Xiao Sanja Fidler Adela Barriuso Antonio Torralba SSeg 249 1,817 0 18 Aug 2016