Papers citing 'Masked Feature Prediction for Self-Supervised Visual Pre-Training'

Title
On the Role of Discrete Tokenization in Visual Representation Learning Tianqi Du Yifei Wang Yisen Wang 237 9 0 12 Jul 2024
Tissue-Contrastive Semi-Masked Autoencoders for Segmentation Pretraining on Chest CT Jie Zheng Ru Wen Haiqin Hu Lina Wei Kui Su Wei Chen Chen Liu Jun Wang 285 1 0 12 Jul 2024
AnatoMask: Enhancing Medical Image Segmentation with Reconstruction-guided Self-masking Yuheng Li Tianyu Luan Yizhou Wu Shaoyan Pan Yenho Chen Xiaofeng Yang 238 15 0 09 Jul 2024
Investigating Self-Supervised Methods for Label-Efficient Learning S. Nandam Sara Atito Zhenhua Feng Josef Kittler Muhammad Awais VLM 150 2 0 25 Jun 2024
Pseudo Labelling for Enhanced Masked Autoencoders S. Nandam Sara Atito Zhenhua Feng Josef Kittler Muhammad Awais 149 1 0 25 Jun 2024
Masked Generative Extractor for Synergistic Representation and 3D Generation of Point Clouds Hongliang Zeng Ping Zhang Fang Li Jiahua Wang Tingyu Ye Pengteng Guo 3DPC 301 1 0 25 Jun 2024
Review of Zero-Shot and Few-Shot AI Algorithms in The Medical Domain Maged Badawi Mohammedyahia Abushanab Sheethal Bhat Andreas Maier VLM 228 4 0 23 Jun 2024
SVFormer: A Direct Training Spiking Transformer for Efficient Video Action Recognition Liutao Yu Liwei Huang Chenlin Zhou Han Zhang Zhengyu Ma Huihui Zhou Yonghong Tian ViT 195 7 0 21 Jun 2024
Harnessing Massive Satellite Imagery with Efficient Masked Image Modeling Fengxiang Wang H. Wang Haiyan Zhao Zonghao Guo Zhenyu Zhong Long Lan Wenjing Yang Jing Zhang 409 8 0 17 Jun 2024
Self-supervised Pretraining and Finetuning for Monocular Depth and Visual Odometry Boris Chidlovskii L. Antsfeld MDE ViT 243 4 0 16 Jun 2024
SemanticMIM: Marring Masked Image Modeling with Semantics Compression for General Visual Representation Yike Yuan Huanzhang Dou Fengjun Guo Xi Li 214 2 0 15 Jun 2024
A Recover-then-Discriminate Framework for Robust Anomaly DetectionScience China Information Sciences (Sci. China Inf. Sci.), 2024 Peng-Fei Xing Dong Zhang Jinhui Tang Zechao li 262 3 0 07 Jun 2024
FILS: Self-Supervised Video Feature Prediction In Semantic Language Space Mona Ahmadian Frank Guerin Andrew Gilbert 309 2 0 05 Jun 2024
DMT-JEPA: Discriminative Masked Targets for Joint-Embedding Predictive Architecture Shentong Mo Sukmin Yun 197 3 0 28 May 2024
ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning Sucheng Ren Hongru Zhu Chen Wei Yijiang Li Yaoyao Liu Cihang Xie AI4TS VGen SSL 187 2 0 24 May 2024
MuDreamer: Learning Predictive World Models without Reconstruction Maxime Burchi Radu Timofte 154 5 0 23 May 2024
BIMM: Brain Inspired Masked Modeling for Video Representation Learning Zhifan Wan Jie Zhang Chang-bo Li Shiguang Shan 205 0 0 21 May 2024
Efficient Vision-Language Pre-training by Cluster MaskingComputer Vision and Pattern Recognition (CVPR), 2024 Zihao Wei Zixuan Pan Andrew Owens VLM 247 15 0 14 May 2024
EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone TrainingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024 Yulin Wang Yang Yue Rui Lu Yizeng Han Shiji Song Gao Huang VLM 206 21 0 14 May 2024
A Semantic and Motion-Aware Spatiotemporal Transformer Network for Action DetectionIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024 Matthew Korban Peter Youngs Scott T. Acton ViT 214 13 0 13 May 2024
Learning Latent Dynamic Robust Representations for World ModelsInternational Conference on Machine Learning (ICML), 2024 Ruixiang Sun Hongyu Zang Xin-hui Li Riashat Islam 211 11 0 10 May 2024
MaskMatch: Boosting Semi-Supervised Learning Through Mask Autoencoder-Driven Feature Learning Wenjin Zhang Keyi Li Sen Yang Chenyang Gao Wanzhao Yang Sifan Yuan I. Marsic 211 1 0 10 May 2024
Efficient Pretraining Model based on Multi-Scale Local Visual Field Feature Reconstruction for PCB CT Image Element SegmentationApplied Optics (Appl. Opt.), 2024 Chen Chen Kai Qiao Jie Yang Jian Chen Bin Yan 125 3 0 09 May 2024
EVA-X: A Foundation Model for General Chest X-ray Analysis with Self-supervised Learning Jingfeng Yao Xinggang Wang Yuehao Song Huangxuan Zhao Jun Ma Yajie Chen Wenyu Liu Bo Wang ViT 162 16 0 08 May 2024
MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation LearningEuropean Conference on Computer Vision (ECCV), 2024 Vishal Nedungadi A. Kariryaa Stefan Oehmcke Serge Belongie Christian Igel Nico Lang 326 63 0 04 May 2024
SAGHOG: Self-Supervised Autoencoder for Generating HOG Features for Writer Retrieval Marco Peer Florian Kleber Robert Sablatnig 162 2 0 26 Apr 2024
An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training Jin Gao Shubo Lin Shaoru Wang Yutong Kou Zeming Li Liang Li Congxuan Zhang Xiaoqin Zhang Yizheng Wang Weiming Hu 244 5 0 18 Apr 2024
Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding Yiwen Tang Ray Zhang Jiaming Liu Zoey Guo Dong Wang ... Bin Zhao Shanghang Zhang Shiyang Feng Jiaming Song Xuelong Li 154 19 0 11 Apr 2024
Unified Multi-modal Diagnostic Framework with Reconstruction Pre-training and Heterogeneity-combat Tuning Yupei Zhang Li Pan Qiushi Yang Tan Li Zhen Chen 250 3 0 09 Apr 2024
Social-MAE: Social Masked Autoencoder for Multi-person Motion Representation Learning Mahsa Ehsanpour Ian Reid Hamid Rezatofighi ViT 142 2 0 08 Apr 2024
Multi Positive Contrastive Learning with Pose-Consistent Generated Images Sho Inayoshi Aji Resindra Widya Satoshi Ozaki Junji Otsuka Takeshi Ohashi 3DH 311 1 0 04 Apr 2024
Learning to Rank Patches for Unbiased Image Redundancy Reduction Yang Luo Zhineng Chen Peng Zhou Zuxuan Wu Xieping Gao Yu-Gang Jiang SSL 243 6 0 31 Mar 2024
Siamese Vision Transformers are Scalable Audio-visual Learners Yan-Bo Lin Gedas Bertasius 215 10 0 28 Mar 2024
Adversarially Masked Video Consistency for Unsupervised Domain Adaptation Xiaoyu Zhu Junwei Liang Po-Yao Huang Alex Hauptmann 222 1 0 24 Mar 2024
Enhancing Video Transformers for Action Understanding with VLM-aided Training Hui Lu Hu Jian Ronald Poppe A. A. Salah 190 5 0 24 Mar 2024
PaPr: Training-Free One-Step Patch Pruning with Lightweight ConvNets for Faster InferenceEuropean Conference on Computer Vision (ECCV), 2024 Tanvir Mahmud Burhaneddin Yaman Chun-Hao Liu Diana Marculescu 382 7 0 24 Mar 2024
SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object TrackingComputer Vision and Pattern Recognition (CVPR), 2024 Xiaojun Hou Jiazheng Xing Yijie Qian Yaowei Guo Shuo Xin ... Kai Tang Mengmeng Wang Zhengkai Jiang Liang Liu Yong-Jin Liu 255 79 0 24 Mar 2024
Edit3K: Universal Representation Learning for Video Editing Components Xin Gu Libo Zhang Fan Chen Longyin Wen Yufei Wang Tiejian Luo Sijie Zhu 269 5 0 24 Mar 2024
Improve Cross-domain Mixed Sampling with Guidance Training for Adaptive SegmentationIEEE Transactions on Instrumentation and Measurement (IEEE Trans. Instrum. Meas.), 2024 Wenlve Zhou Zhiheng Zhou Tianlei Wang Delu Zeng 198 0 0 22 Mar 2024
Rethinking Multi-view Representation Learning via Distilled Disentangling Guanzhou Ke Bo Wang Xiaoli Wang Shengfeng He 353 20 0 16 Mar 2024
FocusMAE: Gallbladder Cancer Detection from Ultrasound Videos with Focused Masked AutoencodersComputer Vision and Pattern Recognition (CVPR), 2024 Soumen Basu Mayuna Gupta Chetan Madan Pankaj Gupta Chetan Arora 234 12 0 13 Mar 2024
Masked AutoDecoder is Effective Multi-Task Vision GeneralistComputer Vision and Pattern Recognition (CVPR), 2024 Han Qiu Jiaxing Huang Shiyang Feng Lewei Lu Xiaoqin Zhang Shijian Lu 179 5 0 12 Mar 2024
AACP: Aesthetics assessment of children's paintings based on self-supervised learningAAAI Conference on Artificial Intelligence (AAAI), 2024 Shiqi Jiang Ning Li Chen Shi Liping Guo Changbo Wang Chenhui Li 141 2 0 12 Mar 2024
Joint-Embedding Masked Autoencoder for Self-supervised Learning of Dynamic Functional Connectivity from the Human Brain Jungwon Choi Hyungi Lee Byung-Hoon Kim Juho Lee 266 2 0 11 Mar 2024
Spatiotemporal Predictive Pre-training for Robotic Motor Control Jiange Yang Bei Liu Jianlong Fu Bocheng Pan Gangshan Wu Limin Wang 312 19 0 08 Mar 2024
VisionLLaMA: A Unified LLaMA Backbone for Vision Tasks Xiangxiang Chu Jianlin Su Bo Zhang Chunhua Shen MLLM 355 26 0 01 Mar 2024
Data-efficient Event Camera Pre-training via Disentangled Masked Modeling Zhenpeng Huang Chao Li Hao Chen Yongjian Deng Yifeng Geng Limin Wang 155 5 0 01 Mar 2024
ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting Chen Duan Pei Fu Shan Guo Qianyi Jiang Xiaoming Wei VLM 252 14 0 01 Mar 2024
A Simple yet Effective Network based on Vision Transformer for Camouflaged Object and Salient Object Detection Chao Hao Zitong Yu Xin Liu Jun Xu Huanjing Yue Jingyu Yang ViT 286 22 0 29 Feb 2024
LSPT: Long-term Spatial Prompt Tuning for Visual Representation Learning Shentong Mo Yansen Wang Xufang Luo Dongsheng Li VLM 162 3 0 27 Feb 2024