Transformers in Vision: A Survey

4 January 2021

Salman Khan

Papers citing "Transformers in Vision: A Survey"

21 / 21 papers shown

Title
xEdgeFace: Efficient Cross-Spectral Face Recognition for Edge Devices Anjith George S´ebastien Marcel CVBM 49 79 0 28 Apr 2025
Back to Fundamentals: Low-Level Visual Features Guided Progressive Token Pruning Yuanbing Ouyang Yizhuo Liang Qingpeng Li Xinfei Guo Yiming Luo Di Wu Hao Wang Yushan Pan ViT VLM 48 0 0 25 Apr 2025
Remote sensing colour image semantic segmentation of trails created by large herbivorous Mammals J. Díez-Pastor Francisco Javier Gonzalez-Moya Pedro Latorre-Carmona Francisco Javier Perez-Barbería Ludmila I.Kuncheva Antonio Canepa-Oneto Alvar Arnaiz-González C. García-Osorio 55 0 0 16 Apr 2025
SoK: Leveraging Transformers for Malware Analysis Pradip Kunwar Kshitiz Aryal Maanak Gupta Mahmoud Abdelsalam Elisa Bertino 53 0 0 27 May 2024
Patches Are All You Need? Asher Trockman J. Zico Kolter ViT 183 320 0 24 Jan 2022
Pix2seq: A Language Modeling Framework for Object Detection Ting-Li Chen Saurabh Saxena Lala Li David J. Fleet Geoffrey E. Hinton MLLM ViT VLM 208 280 0 22 Sep 2021
Intriguing Properties of Vision Transformers Muzammal Naseer Kanchana Ranasinghe Salman Khan Munawar Hayat F. Khan Ming-Hsuan Yang ViT 208 512 0 21 May 2021
MLP-Mixer: An all-MLP Architecture for Vision Ilya O. Tolstikhin N. Houlsby Alexander Kolesnikov Lucas Beyer Xiaohua Zhai ... Andreas Steiner Daniel Keysers Jakob Uszkoreit Mario Lucic Alexey Dosovitskiy 219 2,132 0 04 May 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 260 4,299 0 29 Apr 2021
Transformer in Transformer Kai Han An Xiao Enhua Wu Jianyuan Guo Chunjing Xu Yunhe Wang ViT 260 1,251 0 27 Feb 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 247 2,898 0 24 Feb 2021
LambdaNetworks: Modeling Long-Range Interactions Without Attention Irwan Bello 238 165 0 17 Feb 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 264 1,486 0 09 Feb 2021
Colorization Transformer Manoj Kumar Dirk Weissenborn Nal Kalchbrenner ViT 188 140 0 08 Feb 2021
TransReID: Transformer-based Object Re-Identification Shuting He Haowen Luo Pichao Wang F. Wang Hao Li Wei Jiang ViT 175 600 0 08 Feb 2021
Video Transformer Network Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann ViT 178 375 0 01 Feb 2021
CrossTransformers: spatially-aware few-shot transfer Carl Doersch Ankush Gupta Andrew Zisserman ViT 163 276 0 22 Jul 2020
Improved Baselines with Momentum Contrastive Learning Xinlei Chen Haoqi Fan Ross B. Girshick Kaiming He SSL 216 3,029 0 09 Mar 2020
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 231 815 0 24 Sep 2019
FreiHAND: A Dataset for Markerless Capture of Hand Pose and Shape from Single RGB Images Christiane Zimmermann Duygu Ceylan Jimei Yang Bryan C. Russell Max Argus Thomas Brox 3DH 152 265 0 10 Sep 2019
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 239 6,278 0 16 Nov 2016