ResT: An Efficient Transformer for Visual Recognition

28 May 2021

Papers citing "ResT: An Efficient Transformer for Visual Recognition"

33 / 33 papers shown

Title
Vision Mamba in Remote Sensing: A Comprehensive Survey of Techniques, Applications and Outlook Muyi Bao Shuchang Lyu Zhaoyang Xu Huiyu Zhou Jinchang Ren Shiming Xiang X. Li Guangliang Cheng Mamba 77 0 0 01 May 2025
Remote Sensing Semantic Segmentation Quality Assessment based on Vision Language Model Huiying Shi Z. Tan Zhihan Zhang Hongchen Wei Yaosi Hu Yingxue Zhang Zhenzhong Chen 75 0 0 21 Feb 2025
A Review of Bayesian Uncertainty Quantification in Deep Probabilistic Image Segmentation M. Valiuddin R. V. Sloun C.G.A. Viviers Peter H. N. de With Fons van der Sommen UQCV 79 1 0 25 Nov 2024
FViT: A Focal Vision Transformer with Gabor Filter Yulong Shi Mingwei Sun Yongshuai Wang Rui Wang 47 4 0 17 Feb 2024
EViT: An Eagle Vision Transformer with Bi-Fovea Self-Attention Yulong Shi Mingwei Sun Yongshuai Wang Hui Sun Zengqiang Chen 29 4 0 10 Oct 2023
Lightweight Vision Transformer with Bidirectional Interaction Qihang Fan Huaibo Huang Xiaoqiang Zhou Ran He ViT 34 28 0 01 Jun 2023
VDD: Varied Drone Dataset for Semantic Segmentation Wenxiao Cai Ke Jin Jinyan Hou Cong Guo Letian Wu Wankou Yang 40 11 0 23 May 2023
Vision Transformer with Quadrangle Attention Qiming Zhang Jing Zhang Yufei Xu Dacheng Tao ViT 19 38 0 27 Mar 2023
SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic Speech Processing Weidong Chen Xiaofen Xing Xiangmin Xu Jianxin Pang Lan Du 30 38 0 27 Feb 2023
A Close Look at Spatial Modeling: From Attention to Convolution Xu Ma Huan Wang Can Qin Kunpeng Li Xing Zhao Jie Fu Yun Fu ViT 3DPC 17 11 0 23 Dec 2022
Towards Efficient Adversarial Training on Vision Transformers Boxi Wu Jindong Gu Zhifeng Li Deng Cai Xiaofei He Wei Liu ViT AAML 28 37 0 21 Jul 2022
ViGAT: Bottom-up event recognition and explanation in video using factorized graph attention network Nikolaos Gkalelis Dimitrios Daskalakis Vasileios Mezaris 8 10 0 20 Jul 2022
Defect Transformer: An Efficient Hybrid Transformer Architecture for Surface Defect Detection Junpu Wang Guili Xu Fuju Yan Jinjin Wang Zhengsheng Wang ViT MedIm 21 65 0 17 Jul 2022
Symmetric Transformer-based Network for Unsupervised Image Registration Mingrui Ma Lei Song Yuanbo Xu Gui-Xian Liu ViT MedIm 11 36 0 28 Apr 2022
VSA: Learning Varied-Size Window Attention in Vision Transformers Qiming Zhang Yufei Xu Jing Zhang Dacheng Tao 22 53 0 18 Apr 2022
An Empirical Study of Remote Sensing Pretraining Di Wang Jing Zhang Bo Du Guisong Xia Dacheng Tao EDL 23 190 0 06 Apr 2022
Correlation-Aware Deep Tracking Fei Xie Chunyu Wang Guangting Wang Yue Cao Wankou Yang Wenjun Zeng VOT 22 118 0 03 Mar 2022
Delving Deep into One-Shot Skeleton-based Action Recognition with Diverse Occlusions Kunyu Peng Alina Roitberg Kailun Yang Jiaming Zhang Rainer Stiefelhagen ViT 19 28 0 23 Feb 2022
CATs++: Boosting Cost Aggregation with Convolutions and Transformers Seokju Cho Sunghwan Hong Seung Wook Kim ViT 19 34 0 14 Feb 2022
Efficient Visual Tracking with Exemplar Transformers Philippe Blatter Menelaos Kanakis Martin Danelljan Luc Van Gool ViT 19 79 0 17 Dec 2021
A Survey of Visual Transformers Yang Liu Yao Zhang Yixin Wang Feng Hou Jin Yuan Jiang Tian Yang Zhang Zhongchao Shi Jianping Fan Zhiqiang He 3DGS ViT 69 330 0 11 Nov 2021
UNetFormer: A UNet-like Transformer for Efficient Semantic Segmentation of Remote Sensing Urban Scene Imagery Libo Wang Rui Li Ce Zhang Shenghui Fang Chenxi Duan Xiaoliang Meng P. M. Atkinson ViT 38 623 0 18 Sep 2021
Semi-Supervised Wide-Angle Portraits Correction by Multi-Scale Transformer Fushun Zhu Shan Zhao Peng Wang Hao Wang Hua Yan Shuaicheng Liu ViT 10 16 0 14 Sep 2021
CrossFormer: A Versatile Vision Transformer Hinging on Cross-scale Attention Wenxiao Wang Lulian Yao Long Chen Binbin Lin Deng Cai Xiaofei He Wei Liu 32 256 0 31 Jul 2021
Trans4Trans: Efficient Transformer for Transparent Object Segmentation to Help Visually Impaired People Navigate in the Real World Jiaming Zhang Kailun Yang Angela Constantinescu Kunyu Peng Karin Muller Rainer Stiefelhagen ViT 31 61 0 07 Jul 2021
Dual-stream Network for Visual Recognition Mingyuan Mao Renrui Zhang Honghui Zheng Peng Gao Teli Ma Yan Peng Errui Ding Baochang Zhang Shumin Han ViT 18 63 0 31 May 2021
Transformer in Transformer Kai Han An Xiao Enhua Wu Jianyuan Guo Chunjing Xu Yunhe Wang ViT 282 1,523 0 27 Feb 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 263 3,622 0 24 Feb 2021
Bottleneck Transformers for Visual Recognition A. Srinivas Tsung-Yi Lin Niki Parmar Jonathon Shlens Pieter Abbeel Ashish Vaswani SLR 270 979 0 27 Jan 2021
SOLOv2: Dynamic and Fast Instance Segmentation Xinlong Wang Rufeng Zhang Tao Kong Lei Li Chunhua Shen SSeg ISeg 56 98 0 23 Mar 2020
Conditional Convolutions for Instance Segmentation Zhi Tian Chunhua Shen Hao Chen ISeg 169 597 0 12 Mar 2020
How Much Position Information Do Convolutional Neural Networks Encode? Md. Amirul Islam Sen Jia Neil D. B. Bruce SSL 199 344 0 22 Jan 2020
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 282 10,214 0 16 Nov 2016