DeepViT: Towards Deeper Vision Transformer

22 March 2021

Linjie Yang

Papers citing "DeepViT: Towards Deeper Vision Transformer"

50 / 253 papers shown

Title
Soft Error Reliability Analysis of Vision Transformers Xing-xiong Xue Cheng Liu Ying Wang Bing Yang Tao Luo L. Zhang Huawei Li Xiaowei Li 34 14 0 21 Feb 2023
ApproxABFT: Approximate Algorithm-Based Fault Tolerance for Neural Network Processing Xing-xiong Xue Cheng Liu Haitong Huang Bo Liu Ying Wang 17 2 0 21 Feb 2023
The Framework Tax: Disparities Between Inference Efficiency in NLP Research and Deployment Jared Fernandez Jacob Kahn Clara Na Yonatan Bisk Emma Strubell FedML 25 10 0 13 Feb 2023
DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition Jiayu Jiao Yuyao Tang Kun-Li Channing Lin Yipeng Gao Jinhua Ma Yaowei Wang Wei-Shi Zheng MedIm ViT 19 136 0 03 Feb 2023
Efficient Scopeformer: Towards Scalable and Rich Feature Extraction for Intracranial Hemorrhage Detection Yassine Barhoumi N. Bouaynaya Ghulam Rasool MedIm 14 5 0 01 Feb 2023
POSTER++: A simpler and stronger facial expression recognition network Jia-ju Mao Rui Xu Xuesong Yin Yuan Chang Binling Nie Aibin Huang CVBM 27 38 0 28 Jan 2023
GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous Structured Pruning for Vision Transformer Miao Yin Burak Uzkent Yilin Shen Hongxia Jin Bo Yuan ViT 24 13 0 13 Jan 2023
Vision Transformers Are Good Mask Auto-Labelers Shiyi Lan Xitong Yang Zhiding Yu Zuxuan Wu J. Álvarez Anima Anandkumar ISeg ViT MedIm 24 19 0 10 Jan 2023
MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality Hybrid Zhuo Chen Jiaoyan Chen Wen Zhang Lingbing Guo Yin Fang ... Yichi Zhang Yuxia Geng Jeff Z. Pan Wenting Song Hua-zeng Chen 48 50 0 29 Dec 2022
EIT: Enhanced Interactive Transformer Tong Zheng Bei Li Huiwen Bao Tong Xiao Jingbo Zhu 24 2 0 20 Dec 2022
Inductive Attention for Video Action Anticipation Tsung-Ming Tai G. Fiameni Cheng-Kuang Lee Simon See O. Lanz 31 1 0 17 Dec 2022
Most Important Person-guided Dual-branch Cross-Patch Attention for Group Affect Recognition Hongxia Xie Ming-Xian Lee Tzu-Jui Chen Hung-Jen Chen Hou-I Liu Hong-Han Shuai Wen-Huang Cheng CVBM 30 8 0 14 Dec 2022
Masked autoencoders are effective solution to transformer data-hungry Jia-ju Mao Honggu Zhou Xuesong Yin Binling Nie MedIm 27 6 0 12 Dec 2022
Vision Transformer with Attentive Pooling for Robust Facial Expression Recognition Fanglei Xue Qiangchang Wang Zichang Tan Zhongsong Ma G. Guo ViT 33 66 0 11 Dec 2022
Deep Incubation: Training Large Models by Divide-and-Conquering Zanlin Ni Yulin Wang Jiangwei Yu Haojun Jiang Yu Cao Gao Huang VLM 18 11 0 08 Dec 2022
Degenerate Swin to Win: Plain Window-based Transformer without Sophisticated Operations Tan Yu Ping Li ViT 36 5 0 25 Nov 2022
Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token Migration Yunjie Tian Lingxi Xie Jihao Qiu Jianbin Jiao Yaowei Wang Qi Tian Qixiang Ye ViT 29 6 0 23 Nov 2022
Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition Qibin Hou Cheng Lu Mingg-Ming Cheng Jiashi Feng ViT 23 129 0 22 Nov 2022
Explanation on Pretraining Bias of Finetuned Vision Transformer Bumjin Park Jaesik Choi ViT 29 1 0 18 Nov 2022
Demystify Self-Attention in Vision Transformers from a Semantic Perspective: Analysis and Application Leijie Wu Song Guo Yaohong Ding Junxiao Wang Wenchao Xu Richard Yi Da Xu Jiewei Zhang 28 2 0 13 Nov 2022
MultiCrossViT: Multimodal Vision Transformer for Schizophrenia Prediction using Structural MRI and Functional Network Connectivity Data Yuda Bi A. Abrol Z. Fu Vince D. Calhoun MedIm 13 3 0 12 Nov 2022
Token Transformer: Can class token help window-based transformer build better long-range interactions? Jia-ju Mao Yuan Chang Xuesong Yin 21 0 0 11 Nov 2022
Interpretable CNN-Multilevel Attention Transformer for Rapid Recognition of Pneumonia from Chest X-Ray Images Shengchao Chen Sufen Ren Guanjun Wang Mengxing Huang Chenyang Xue ViT MedIm 47 16 0 29 Oct 2022
Reliability of CKA as a Similarity Measure in Deep Learning Mohammad-Javad Davari Stefan Horoi A. Natik Guillaume Lajoie Guy Wolf Eugene Belilovsky AAML 74 35 0 28 Oct 2022
Deep Model Reassembly Xingyi Yang Zhou Daquan Songhua Liu Jingwen Ye Xinchao Wang MoMe 20 120 0 24 Oct 2022
Face Pyramid Vision Transformer Khawar Islam M. Zaheer Arif Mahmood ViT CVBM 24 4 0 21 Oct 2022
Boosting vision transformers for image retrieval Chull Hwan Song Jooyoung Yoon Shunghyun Choi Yannis Avrithis ViT 22 31 0 21 Oct 2022
A Survey of Computer Vision Technologies In Urban and Controlled-environment Agriculture Jiayun Luo Boyang Albert Li Cyril Leung 46 10 0 20 Oct 2022
Scaling & Shifting Your Features: A New Baseline for Efficient Model Tuning Dongze Lian Daquan Zhou Jiashi Feng Xinchao Wang 34 247 0 17 Oct 2022
MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision Models Chenglin Yang Siyuan Qiao Qihang Yu Xiaoding Yuan Yukun Zhu Alan Yuille Hartwig Adam Liang-Chieh Chen ViT MoE 24 58 0 04 Oct 2022
Towards Flexible Inductive Bias via Progressive Reparameterization Scheduling Yunsung Lee Gyuseong Lee Kwang-seok Ryoo Hyojun Go Jihye Park Seung Wook Kim 24 5 0 04 Oct 2022
EAPruning: Evolutionary Pruning for Vision Transformers and CNNs Qingyuan Li Bo-Wen Zhang Xiangxiang Chu ViT VLM 16 3 0 01 Oct 2022
Effective Vision Transformer Training: A Data-Centric Perspective Benjia Zhou Pichao Wang Jun Wan Yan-Ni Liang Fan Wang 24 5 0 29 Sep 2022
Dense-TNT: Efficient Vehicle Type Classification Neural Network Using Satellite Imagery Ruikang Luo Yaofeng Song H. Zhao Yicheng Zhang Yi Zhang Nanbin Zhao Liping Huang Rong Su ViT 16 11 0 27 Sep 2022
Uncertainty Aware Multitask Pyramid Vision Transformer For UAV-Based Object Re-Identification Syeda Nyma Ferdous Xin Li Siwei Lyu 64 5 0 19 Sep 2022
Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer? Yi Wang Zhiwen Fan Tianlong Chen Hehe Fan Zhangyang Wang ViT 42 9 0 15 Sep 2022
PSAQ-ViT V2: Towards Accurate and General Data-Free Quantization for Vision Transformers Zhikai Li Mengjuan Chen Junrui Xiao Qingyi Gu ViT MQ 43 32 0 13 Sep 2022
Deep Convolutional Pooling Transformer for Deepfake Detection Tianyi Wang Harry Cheng Kam-pui Chow Liqiang Nie ViT 21 66 0 12 Sep 2022
Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D Image Representations Vadim Tschernezki Iro Laina Diane Larlus Andrea Vedaldi 176 184 0 07 Sep 2022
gSwin: Gated MLP Vision Model with Hierarchical Structure of Shifted Window Mocho Go Hideyuki Tachibana ViT 29 9 0 24 Aug 2022
Understanding Adversarial Robustness of Vision Transformers via Cauchy Problem Zheng Wang Wenjie Ruan ViT 29 8 0 01 Aug 2022
Multi-manifold Attention for Vision Transformers D. Konstantinidis Ilias Papastratis K. Dimitropoulos P. Daras ViT 14 16 0 18 Jul 2022
Towards the Human Global Context: Does the Vision-Language Model Really Judge Like a Human Being? Sangmyeong Woh Jaemin Lee Hoki Kim Jinsuk Lee 16 0 0 18 Jul 2022
Outpainting by Queries Kai Yao Penglei Gao Xi Yang Kaizhu Huang Jie Sun Rui Zhang ViT 26 13 0 12 Jul 2022
Wave-ViT: Unifying Wavelet and Transformers for Visual Representation Learning Ting Yao Yingwei Pan Yehao Li Chong-Wah Ngo Tao Mei ViT 146 136 0 11 Jul 2022
Dual Vision Transformer Ting Yao Yehao Li Yingwei Pan Yu Wang Xiaoping Zhang Tao Mei ViT 141 75 0 11 Jul 2022
TFCNs: A CNN-Transformer Hybrid Network for Medical Image Segmentation Zihan Li Dihan Li Cangbai Xu Wei-Chien Wang Qingqi Hong Qingde Li Jie Tian ViT MedIm 14 46 0 07 Jul 2022
Vision Transformers: State of the Art and Research Challenges Bo-Kai Ruan Hong-Han Shuai Wen-Huang Cheng ViT 22 17 0 07 Jul 2022
Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks Yongming Rao Zuyan Liu Wenliang Zhao Jie Zhou Jiwen Lu ViT 44 36 0 04 Jul 2022
Efficient Lung Cancer Image Classification and Segmentation Algorithm Based on Improved Swin Transformer Ruinan Sun Yu Pang ViT MedIm 14 18 0 04 Jul 2022