Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation

29 November 2023

Papers citing "Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation"

2 / 2 papers shown

Title
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Zhao Yang Jiaqi Wang Yansong Tang Kai-xiang Chen Hengshuang Zhao Philip H. S. Torr 117 308 0 04 Dec 2021
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 255 7,337 0 11 Nov 2021