SP-ViT: Learning 2D Spatial Priors for Vision Transformers

SP-ViT: Learning 2D Spatial Priors for Vision Transformers

15 June 2022

Lei Zhang

Papers citing "SP-ViT: Learning 2D Spatial Priors for Vision Transformers"

12 / 12 papers shown

Title
MaxSup: Overcoming Representation Collapse in Label Smoothing Yuxuan Zhou Heng Li Zhi-Qi Cheng Xudong Yan Mario Fritz M. Keuper 41 0 0 18 Feb 2025
Pruning One More Token is Enough: Leveraging Latency-Workload Non-Linearities for Vision Transformers on the Edge Nick Eliopoulos Purvish Jajal James Davis Gaowen Liu George K. Thiravathukal Yung-Hsiang Lu 36 1 0 01 Jul 2024
Multiple Prior Representation Learning for Self-Supervised Monocular Depth Estimation via Hybrid Transformer Guodong Sun Junjie Liu Mingxuan Liu Moyun Liu Yang Zhang MDE ViT 35 1 0 13 Jun 2024
MultiMax: Sparse and Multi-Modal Attention Learning Yuxuan Zhou Mario Fritz M. Keuper 35 1 0 03 Jun 2024
Accelerating Transformers with Spectrum-Preserving Token Merging Hoai-Chau Tran D. M. Nguyen Duy M. Nguyen Trung Thanh Nguyen Ngan Le Pengtao Xie Daniel Sonntag James Y. Zou Binh T. Nguyen Mathias Niepert 32 8 0 25 May 2024
PEAN: A Diffusion-Based Prior-Enhanced Attention Network for Scene Text Image Super-Resolution Zuoyan Zhao Hui Xue Pengfei Fang Shipeng Zhu DiffM 16 4 0 29 Nov 2023
Overcoming Topology Agnosticism: Enhancing Skeleton-Based Action Recognition through Redefined Skeletal Topology Awareness Yuxuan Zhou Zhi-Qi Cheng Ju He Bin Luo Yifeng Geng Xuansong Xie 29 11 0 19 May 2023
Knowledge Distillation in Vision Transformers: A Critical Review Gousia Habib Tausifa Jan Saleem Brejesh Lall 11 15 0 04 Feb 2023
Hypergraph Transformer for Skeleton-based Action Recognition Yuxuan Zhou Zhi-Qi Cheng C. Li Yanwen Fang Yifeng Geng Xuansong Xie M. Keuper ViT 18 52 0 17 Nov 2022
Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering Hao Li Jinfa Huang Peng Jin Guoli Song Qi Wu Jie Chen 27 20 0 21 Sep 2022
Transformer in Transformer Kai Han An Xiao Enhua Wu Jianyuan Guo Chunjing Xu Yunhe Wang ViT 282 1,518 0 27 Feb 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 263 3,604 0 24 Feb 2021