PSViT: Better Vision Transformer via Token Pooling and Attention Sharing

7 August 2021

Wanli Ouyang

Papers citing "PSViT: Better Vision Transformer via Token Pooling and Attention Sharing"

21 / 21 papers shown

Image Recognition with Online Lightweight Vision Transformer: A Survey

...

1.2K

06 May 2025

MVTN: A Multiscale Video Transformer Network for Hand Gesture Recognition

326

05 Sep 2024

TReX- Reusing Vision Transformer's Attention for Efficient Xbar-based ComputingIEEE Transactions on Emerging Topics in Computing (IEEE TETC), 2024

Abhishek Moitra

Abhiroop Bhattacharjee

Youngeun Kim

Priyadarshini Panda

ViT

235

22 Aug 2024

Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets

557

28 Jul 2024

DiTFastAttn: Attention Compression for Diffusion Transformer Models

Zhihang Yuan

Pu Lu

Hanling Zhang

Yu Wang

341

12 Jun 2024

GestFormer: Multiscale Wavelet Pooling Transformer Network for Dynamic Hand Gesture Recognition

359

18 May 2024

MLP Can Be A Good Transformer Learner

Xiaodan Liang

209

08 Apr 2024

MCUFormer: Deploying Vision Transformers on Microcontrollers with Limited MemoryNeural Information Processing Systems (NeurIPS), 2023

Jie Zhou

332

25 Oct 2023

Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural NetworkIEEE Transactions on Image Processing (IEEE TIP), 2023

Zizhuo Li

Jiayi Ma

348

04 Jul 2023

Lightweight Monocular Depth Estimation via Token-Sharing TransformerIEEE International Conference on Robotics and Automation (ICRA), 2023

209

09 Jun 2023

IMP: Iterative Matching and Pose Estimation with Adaptive PoolingComputer Vision and Pattern Recognition (CVPR), 2023

Fei Xue

Ignas Budvytis

R. Cipolla

375

28 Apr 2023

Visual Dependency Transformers: Dependency Tree Emerges from Reversed AttentionComputer Vision and Pattern Recognition (CVPR), 2023

Mingyu Ding

Ping Luo

Chuang Gan

285

06 Apr 2023

Effective Vision Transformer Training: A Data-Centric Perspective

Fan Wang

215

29 Sep 2022

Transformers Meet Visual Learning Understanding: A Comprehensive Review

Shuyuan Yang

236

24 Mar 2022

Attribute Surrogates Learning and Spectral Tokens Pooling in Transformers for Few-shot LearningComputer Vision and Pattern Recognition (CVPR), 2022

291

17 Mar 2022

Backbone is All Your Need: A Simplified Architecture for Visual Object TrackingEuropean Conference on Computer Vision (ECCV), 2022

Wanli Ouyang

334

295

10 Mar 2022

Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped AttentionAAAI Conference on Artificial Intelligence (AAAI), 2021

274

28 Dec 2021

SPViT: Enabling Faster Vision Transformers via Soft Token PruningEuropean Conference on Computer Vision (ECCV), 2021

...

378

209

27 Dec 2021

ELSA: Enhanced Local Self-Attention for Vision Transformer

Jingkai Zhou

Fan Wang

Hao Li

289

23 Dec 2021

CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation

Fan Wang

782

289

13 Sep 2021

Scaled ReLU Matters for Training Vision TransformersAAAI Conference on Artificial Intelligence (AAAI), 2021

Jingkai Zhou

Fan Wang

Hao Li

Rong Jin

285

08 Sep 2021