Transformers in Vision: A Survey

4 January 2021

Salman Khan

Papers citing "Transformers in Vision: A Survey"

23 / 23 papers shown

Title
xEdgeFace: Efficient Cross-Spectral Face Recognition for Edge Devices Anjith George S´ebastien Marcel CVBM 52 79 0 28 Apr 2025
Back to Fundamentals: Low-Level Visual Features Guided Progressive Token Pruning Yuanbing Ouyang Yizhuo Liang Qingpeng Li Xinfei Guo Yiming Luo Di Wu Hao Wang Yushan Pan ViT VLM 58 54 0 25 Apr 2025
Remote sensing colour image semantic segmentation of trails created by large herbivorous Mammals J. Díez-Pastor Francisco Javier Gonzalez-Moya Pedro Latorre-Carmona Francisco Javier Perez-Barbería Ludmila I.Kuncheva Antonio Canepa-Oneto Alvar Arnaiz-González C. García-Osorio 57 53 0 16 Apr 2025
MaskAttn-UNet: A Mask Attention-Driven Framework for Universal Low-Resolution Image Segmentation Anzhe Cheng Chenzhong Yin Yu Chang Heng Ping Shixuan Li Shahin Nazarian Paul Bogdan SSeg 59 68 0 11 Mar 2025
Vision Transformers for Efficient Indoor Pathloss Radio Map Prediction Rafayel Mkrtchyan Edvard Ghukasyan Rafayel Mkrtchyan Hrant Khachatrian Theofanis P. Raptis 64 30 0 12 Dec 2024
SoK: Leveraging Transformers for Malware Analysis Pradip Kunwar Kshitiz Aryal Maanak Gupta Mahmoud Abdelsalam Elisa Bertino 58 120 0 27 May 2024
Patches Are All You Need? Asher Trockman J. Zico Kolter ViT 190 320 0 24 Jan 2022
Pix2seq: A Language Modeling Framework for Object Detection Ting-Li Chen Saurabh Saxena Lala Li David J. Fleet Geoffrey E. Hinton MLLM ViT VLM 223 280 0 22 Sep 2021
Intriguing Properties of Vision Transformers Muzammal Naseer Kanchana Ranasinghe Salman Khan Munawar Hayat F. Khan Ming-Hsuan Yang ViT 223 512 0 21 May 2021
MLP-Mixer: An all-MLP Architecture for Vision Ilya O. Tolstikhin N. Houlsby Alexander Kolesnikov Lucas Beyer Xiaohua Zhai ... Andreas Steiner Daniel Keysers Jakob Uszkoreit Mario Lucic Alexey Dosovitskiy 236 2,132 0 04 May 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 280 4,273 0 29 Apr 2021
Transformer in Transformer Kai Han An Xiao Enhua Wu Jianyuan Guo Chunjing Xu Yunhe Wang ViT 269 1,198 0 27 Feb 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 257 2,898 0 24 Feb 2021
LambdaNetworks: Modeling Long-Range Interactions Without Attention Irwan Bello 251 161 0 17 Feb 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 267 1,486 0 09 Feb 2021
Colorization Transformer Manoj Kumar Dirk Weissenborn Nal Kalchbrenner ViT 201 135 0 08 Feb 2021
TransReID: Transformer-based Object Re-Identification Shuting He Haowen Luo Pichao Wang F. Wang Hao Li Wei Jiang ViT 197 600 0 08 Feb 2021
Video Transformer Network Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann ViT 186 356 0 01 Feb 2021
CrossTransformers: spatially-aware few-shot transfer Carl Doersch Ankush Gupta Andrew Zisserman ViT 176 272 0 22 Jul 2020
Improved Baselines with Momentum Contrastive Learning Xinlei Chen Haoqi Fan Ross B. Girshick Kaiming He SSL 224 3,017 0 09 Mar 2020
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 241 815 0 24 Sep 2019
FreiHAND: A Dataset for Markerless Capture of Hand Pose and Shape from Single RGB Images Christiane Zimmermann Duygu Ceylan Jimei Yang Bryan C. Russell Max Argus Thomas Brox 3DH 165 265 0 10 Sep 2019
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 255 6,278 0 16 Nov 2016