Masked Vision-Language Transformers for Scene Text Recognition

9 November 2022

Papers citing "Masked Vision-Language Transformers for Scene Text Recognition"

2 / 2 papers shown

Title
MuTT: A Multimodal Trajectory Transformer for Robot Skills Claudius Kienle Benjamin Alt Onur Celik P. Becker Darko Katic Rainer Jäkel Gerhard Neumann 25 1 0 22 Jul 2024
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,337 0 11 Nov 2021