Siamese Masked Autoencoders

23 May 2023

Agrim Gupta

Jiajun Wu

Jia Deng

Li Fei-Fei

ArXiv PDF HTML

Papers citing "Siamese Masked Autoencoders"

42 / 42 papers shown

Title
Contextures: Representations from Contexts Runtian Zhai Kai Yang Che-Ping Tsai Burak Varici Zico Kolter Pradeep Ravikumar 83 0 0 02 May 2025
Learning from Streaming Video with Orthogonal Gradients Tengda Han Dilara Gokay Joseph Heyward Chuhan Zhang Daniel Zoran Viorica Patraucean João Carreira Dima Damen Andrew Zisserman 40 0 0 02 Apr 2025
Scene-Centric Unsupervised Panoptic Segmentation Oliver Hahn Christoph Reich Nikita Araslanov Daniel Cremers Christian Rupprecht Stefan Roth OCL 57 0 0 02 Apr 2025
Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition Yifei Zhang Chang-Shu Liu Jin Wei Xiaomeng Yang Yu Zhou Can Ma Xiangyang Ji 60 2 0 24 Mar 2025
Developing a PET/CT Foundation Model for Cross-Modal Anatomical and Functional Imaging Y. Oh Robert Seifert Yihan Cao Christoph Clement Justin Ferdinandus ... X. Li P. Heidari Axel Rominger Kuangyu Shi Quanzheng Li ViT MedIm 36 0 0 04 Mar 2025
Cross-View Completion Models are Zero-shot Correspondence Estimators Honggyu An J. Kim Seonghoon Park Jaewoo Jung Jisang Han Sunghwan Hong Seungryong Kim 3DV 75 3 0 12 Dec 2024
Pair-VPR: Place-Aware Pre-training and Contrastive Pair Classification for Visual Place Recognition with Vision Transformers Stephen Hausler Peyman Moghadam SSL ViT 29 2 0 09 Oct 2024
Walker: Self-supervised Multiple Object Tracking by Walking on Temporal Appearance Graphs Mattia Segu Luigi Piccinelli Siyuan Li Luc Van Gool Fisher Yu Bernt Schiele VOT 29 2 0 25 Sep 2024
Self-Supervised Any-Point Tracking by Contrastive Random Walks Ayush Shrivastava Andrew Owens 28 3 0 24 Sep 2024
Symmetric masking strategy enhances the performance of Masked Image Modeling Khanh-Binh Nguyen Chae Jung Park 32 0 0 23 Aug 2024
PooDLe: Pooled and dense self-supervised learning from naturalistic videos Alex N. Wang Christopher Hoang Yuwen Xiong Yann LeCun Mengye Ren 64 0 0 20 Aug 2024
Unsupervised Part Discovery via Dual Representation Alignment Jiahao Xia Wenjian Huang Min Xu Jianguo Zhang Haimin Zhang Ziyu Sheng Dong Xu 34 0 0 15 Aug 2024
Masked Image Modeling: A Survey Vlad Hondru Florinel-Alin Croitoru Shervin Minaee Radu Tudor Ionescu N. Sebe 64 6 0 13 Aug 2024
Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers Longkun Zou Wanru Zhu Ke Chen Lihua Guo K. Guo Kui Jia Yaowei Wang 3DPC ViT 40 0 0 26 Jul 2024
Decomposition Betters Tracking Everything Everywhere Rui Li Dong Liu 36 3 0 09 Jul 2024
Self-supervised Pretraining and Finetuning for Monocular Depth and Visual Odometry Boris Chidlovskii L. Antsfeld MDE ViT 29 1 0 16 Jun 2024
Self Pre-training with Topology- and Spatiality-aware Masked Autoencoders for 3D Medical Image Segmentation Pengfei Gu Yejia Zhang Huimin Li Chaoli Wang D. Z. Chen MedIm 47 1 0 15 Jun 2024
Visual Representation Learning with Stochastic Frame Prediction Huiwon Jang Dongyoung Kim Junsu Kim Jinwoo Shin Pieter Abbeel Younggyo Seo 34 2 0 11 Jun 2024
Investigating Pre-Training Objectives for Generalization in Vision-Based Reinforcement Learning Donghu Kim Hojoon Lee Kyungmin Lee Dongyoon Hwang Jaegul Choo OffRL 29 1 0 10 Jun 2024
FORESEE: Multimodal and Multi-view Representation Learning for Robust Prediction of Cancer Survival Liangrui Pan Yijun Peng Yan Li Yiyi Liang Liwen Xu Qingchun Liang Shaoliang Peng 32 0 0 13 May 2024
Self-Supervised Learning for Interventional Image Analytics: Towards Robust Device Trackers Saahil Islam Venkatesh N. Murthy Dominik Neumann B. K. Das Puneet Sharma Andreas K. Maier D. Comaniciu Florin-Cristian Ghesu 29 1 0 02 May 2024
Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders Alexandre Eymaël Renaud Vandeghen A. Cioppa Silvio Giancola Bernard Ghanem Marc Van Droogenbroeck ViT 38 6 0 26 Mar 2024
Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding Chaolei Tan Jian-Huang Lai Wei-Shi Zheng Jianfang Hu AI4TS 36 5 0 18 Mar 2024
Spatiotemporal Predictive Pre-training for Robotic Motor Control Jiange Yang Bei Liu Jianlong Fu Bocheng Pan Gangshan Wu Limin Wang 34 10 0 08 Mar 2024
MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder Lei Li Tianfang Zhang Xinglin Zhang Jiaqi Liu Bingqi Ma Yan-chun Luo Tao Chen MedIm 32 0 0 07 Mar 2024
VideoMAC: Video Masked Autoencoders Meet ConvNets Gensheng Pei Tao Chen XiRuo Jiang Huafeng Liu Zeren Sun Yazhou Yao VGen 34 9 0 29 Feb 2024
Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation Learning of Vision-based Autonomous Driving Yichen Xie Hongge Chen Gregory P. Meyer Yong Jae Lee Eric M. Wolff Masayoshi Tomizuka Wei Zhan Yuning Chai Xin Huang 3DPC 29 1 0 23 Feb 2024
Revisiting Feature Prediction for Learning Visual Representations from Video Adrien Bardes Q. Garrido Jean Ponce Xinlei Chen Michael G. Rabbat Yann LeCun Mahmoud Assran Nicolas Ballas MDE VLM 87 73 0 15 Feb 2024
Cross-view Masked Diffusion Transformers for Person Image Synthesis T. Pham Zhang Kang Chang-Dong Yoo 46 6 0 02 Feb 2024
Rethinking Patch Dependence for Masked Autoencoders Letian Fu Long Lian Renhao Wang Baifeng Shi Xudong Wang Adam Yala Trevor Darrell Alexei A. Efros Ken Goldberg 26 14 0 25 Jan 2024
Masked Modeling for Self-supervised Representation Learning on Vision and Beyond Siyuan Li Luyuan Zhang Zedong Wang Di Wu Lirong Wu ... Jun-Xiong Xia Cheng Tan Yang Liu Baigui Sun Stan Z. Li SSL 29 14 0 31 Dec 2023
Bootstrap Masked Visual Modeling via Hard Patches Mining Haochen Wang Junsong Fan Yuxi Wang Kaiyou Song Tiancai Wang Xiangyu Zhang Zhaoxiang Zhang 34 5 0 21 Dec 2023
T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning Weijie Wei F. Karimi Nejadasl Theo Gevers Martin R. Oswald 3DPC 23 3 0 15 Dec 2023
Photorealistic Video Generation with Diffusion Models Agrim Gupta Lijun Yu Kihyuk Sohn Xiuye Gu Meera Hahn Fei-Fei Li Irfan Essa Lu Jiang José Lezama VGen 39 174 0 11 Dec 2023
3D-Aware Hypothesis & Verification for Generalizable Relative Object Pose Estimation Chen Zhao Tong Zhang Mathieu Salzmann 3DH 15 9 0 05 Oct 2023
CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding Mingming Zhang Qingjie Liu Yunhong Wang 22 5 0 28 Sep 2023
A Survey on Self-supervised Learning: Algorithms, Applications, and Future Trends Jie Gui Tuo Chen Jing Zhang Qiong Cao Zhe Sun Haoran Luo Dacheng Tao 29 120 0 13 Jan 2023
Deep Learning Technique for Human Parsing: A Survey and Outlook Lu Yang Wenhe Jia Shane Li Q. Song ViT 41 17 0 01 Jan 2023
MaskViT: Masked Visual Pre-Training for Video Prediction Agrim Gupta Stephen Tian Yunzhi Zhang Jiajun Wu Roberto Martín-Martín Li Fei-Fei 100 110 0 23 Jun 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,412 0 11 Nov 2021
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 224 1,018 0 13 Oct 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 303 5,761 0 29 Apr 2021