Incorporating Convolution Designs into Visual Transformers

22 March 2021

Ziwei Liu

Papers citing "Incorporating Convolution Designs into Visual Transformers"

50 / 218 papers shown

Title
Part-based Face Recognition with Vision Transformers Zhonglin Sun Georgios Tzimiropoulos ViT 15 15 0 30 Nov 2022
From Coarse to Fine: Hierarchical Pixel Integration for Lightweight Image Super-Resolution Jie Liu Chaoqian Chen Jie Tang Gangshan Wu SupR 25 12 0 30 Nov 2022
Cross Aggregation Transformer for Image Restoration Zheng Chen Yulun Zhang Jinjin Gu Yongbing Zhang L. Kong X. Yuan ViT 33 142 0 24 Nov 2022
UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer Kunchang Li Yali Wang Yinan He Yizhuo Li Yi Wang Limin Wang Yu Qiao ViT 25 106 0 17 Nov 2022
Training a Vision Transformer from scratch in less than 24 hours with 1 GPU Saghar Irandoust Thibaut Durand Yunduz Rakhmangulova Wenjie Zi Hossein Hajimirsadeghi ViT 33 6 0 09 Nov 2022
Efficient Joint Detection and Multiple Object Tracking with Spatially Aware Transformer S. S. Nijhawan Leo Hoshikawa Atsushi Irie Masakazu Yoshimura Junji Otsuka Takeshi Ohashi VOT ViT 27 0 0 09 Nov 2022
Boosting Binary Neural Networks via Dynamic Thresholds Learning Jiehua Zhang Xueyang Zhang Z. Su Zitong Yu Yanghe Feng Xin Lu M. Pietikäinen Li Liu MQ 30 0 0 04 Nov 2022
Explicitly Increasing Input Information Density for Vision Transformers on Small Datasets Xiangyu Chen Ying Qin Wenju Xu A. Bur Cuncong Zhong Guanghui Wang ViT 38 3 0 25 Oct 2022
Accumulated Trivial Attention Matters in Vision Transformers on Small Datasets Xiangyu Chen Qinghao Hu Kaidong Li Cuncong Zhong Guanghui Wang ViT 33 11 0 22 Oct 2022
Face Pyramid Vision Transformer Khawar Islam M. Zaheer Arif Mahmood ViT CVBM 24 4 0 21 Oct 2022
Boosting vision transformers for image retrieval Chull Hwan Song Jooyoung Yoon Shunghyun Choi Yannis Avrithis ViT 26 31 0 21 Oct 2022
A Survey of Computer Vision Technologies In Urban and Controlled-environment Agriculture Jiayun Luo Boyang Albert Li Cyril Leung 48 11 0 20 Oct 2022
TokenMixup: Efficient Attention-guided Token-level Data Augmentation for Transformers Hyeong Kyu Choi Joonmyung Choi Hyunwoo J. Kim ViT 28 35 0 14 Oct 2022
How to Train Vision Transformer on Small-scale Datasets? Hanan Gani Muzammal Naseer Mohammad Yaqub ViT 12 49 0 13 Oct 2022
Bridging the Gap Between Vision Transformers and Convolutional Neural Networks on Small Datasets Zhiying Lu Hongtao Xie Chuanbin Liu Yongdong Zhang ViT 15 57 0 12 Oct 2022
MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision Models Chenglin Yang Siyuan Qiao Qihang Yu Xiaoding Yuan Yukun Zhu Alan Yuille Hartwig Adam Liang-Chieh Chen ViT MoE 33 58 0 04 Oct 2022
Towards Flexible Inductive Bias via Progressive Reparameterization Scheduling Yunsung Lee Gyuseong Lee Kwang-seok Ryoo Hyojun Go Jihye Park Seung Wook Kim 24 5 0 04 Oct 2022
MobileViTv3: Mobile-Friendly Vision Transformer with Simple and Effective Fusion of Local, Global and Input Features S. Wadekar Abhishek Chaurasia ViT 98 87 0 30 Sep 2022
Effective Vision Transformer Training: A Data-Centric Perspective Benjia Zhou Pichao Wang Jun Wan Yan-Ni Liang Fan Wang 26 5 0 29 Sep 2022
Exploring the Relationship between Architecture and Adversarially Robust Generalization Aishan Liu Shiyu Tang Siyuan Liang Ruihao Gong Boxi Wu Xianglong Liu Dacheng Tao AAML 28 18 0 28 Sep 2022
Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering Hao Li Jinfa Huang Peng Jin Guoli Song Qi Wu Jie Chen 33 21 0 21 Sep 2022
On the Shift Invariance of Max Pooling Feature Maps in Convolutional Neural Networks Hubert Leterme K. Polisano V. Perrier Alahari Karteek FAtt 38 2 0 19 Sep 2022
MRL: Learning to Mix with Attention and Convolutions Shlok Mohta Hisahiro Suganuma Yoshiki Tanaka 20 2 0 30 Aug 2022
Improved Image Classification with Token Fusion Keong-Hun Choi Jin-Woo Kim Yaolong Wang J. Ha ViT 19 0 0 19 Aug 2022
Conviformers: Convolutionally guided Vision Transformer Mohit Vaishnav Thomas Fel I. F. Rodriguez Thomas Serre ViT 30 1 0 17 Aug 2022
Memorizing Complementation Network for Few-Shot Class-Incremental Learning Zhong Ji Zhi Hou Xiyao Liu Yanwei Pang Xuelong Li CLL 19 45 0 11 Aug 2022
DnSwin: Toward Real-World Denoising via Continuous Wavelet Sliding-Transformer Hao Li Zhijing Yang Xiaobin Hong Ziying Zhao Junyang Chen Yukai Shi Jin-shan Pan DiffM ViT 31 11 0 28 Jul 2022
Convolutional Embedding Makes Hierarchical Vision Transformer Stronger Cong Wang Hongmin Xu Xiong Zhang Li Wang Zhitong Zheng Haifeng Liu ViT 14 20 0 27 Jul 2022
Jigsaw-ViT: Learning Jigsaw Puzzles in Vision Transformer Yingyi Chen Xiaoke Shen Yahui Liu Qinghua Tao Johan A. K. Suykens AAML ViT 21 22 0 25 Jul 2022
Locality Guidance for Improving Vision Transformers on Tiny Datasets Kehan Li Runyi Yu Zhennan Wang Li-ming Yuan Guoli Song Jie Chen ViT 24 43 0 20 Jul 2022
Multi-manifold Attention for Vision Transformers D. Konstantinidis Ilias Papastratis K. Dimitropoulos P. Daras ViT 14 16 0 18 Jul 2022
LightViT: Towards Light-Weight Convolution-Free Vision Transformers Tao Huang Lang Huang Shan You Fei Wang Chao Qian Chang Xu ViT 17 55 0 12 Jul 2022
FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis Yongqiang Wang Zhou Zhao 19 10 0 08 Jul 2022
Vision Transformers: State of the Art and Research Challenges Bo-Kai Ruan Hong-Han Shuai Wen-Huang Cheng ViT 22 17 0 07 Jul 2022
MaiT: Leverage Attention Masks for More Efficient Image Transformers Ling Li Ali Shafiee Ardestani Joseph Hassoun 14 1 0 06 Jul 2022
Pure Transformers are Powerful Graph Learners Jinwoo Kim Tien Dat Nguyen Seonwoo Min Sungjun Cho Moontae Lee Honglak Lee Seunghoon Hong 38 187 0 06 Jul 2022
CNN-based Local Vision Transformer for COVID-19 Diagnosis Hongyan Xu Xiu Su Dadong Wang ViT MedIm 23 2 0 05 Jul 2022
EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm Jiangning Zhang Xiangtai Li Yabiao Wang Chengjie Wang Yibo Yang Yong Liu Dacheng Tao ViT 32 32 0 19 Jun 2022
SP-ViT: Learning 2D Spatial Priors for Vision Transformers Yuxuan Zhou Wangmeng Xiang C. Li Biao Wang Xihan Wei Lei Zhang M. Keuper Xia Hua ViT 29 15 0 15 Jun 2022
Spatial Entropy as an Inductive Bias for Vision Transformers E. Peruzzo E. Sangineto Yahui Liu Marco De Nadai Wei Bi Bruno Lepri N. Sebe ViT MDE 31 1 0 09 Jun 2022
Hub-Pathway: Transfer Learning from A Hub of Pre-trained Models Yang Shu Zhangjie Cao Ziyang Zhang Jianmin Wang Mingsheng Long 15 4 0 08 Jun 2022
EfficientFormer: Vision Transformers at MobileNet Speed Yanyu Li Geng Yuan Yang Wen Eric Hu Georgios Evangelidis Sergey Tulyakov Yanzhi Wang Jian Ren ViT 18 346 0 02 Jun 2022
Transforming medical imaging with Transformers? A comparative review of key properties, current progresses, and future perspectives Jun Li Junyu Chen Yucheng Tang Ce Wang Bennett A. Landman S. K. Zhou ViT OOD MedIm 21 20 0 02 Jun 2022
Temporal Latent Bottleneck: Synthesis of Fast and Slow Processing Mechanisms in Sequence Learning Aniket Didolkar Kshitij Gupta Anirudh Goyal Nitesh B. Gundavarapu Alex Lamb Nan Rosemary Ke Yoshua Bengio AI4CE 112 17 0 30 May 2022
MDMLP: Image Classification from Scratch on Small Datasets with MLP Tianxu Lv Chongyang Bai Chaojie Wang 22 5 0 28 May 2022
Fast Vision Transformers with HiLo Attention Zizheng Pan Jianfei Cai Bohan Zhuang 28 152 0 26 May 2022
MoCoViT: Mobile Convolutional Vision Transformer Hailong Ma Xin Xia Xing Wang Xuefeng Xiao Jiashi Li Min Zheng ViT 29 18 0 25 May 2022
Eye-gaze-guided Vision Transformer for Rectifying Shortcut Learning Chong Ma Lin Zhao Yuzhong Chen Lu Zhang Zhe Xiao ... Tuo Zhang Qian Wang Dinggang Shen Dajiang Zhu Tianming Liu ViT MedIm 36 30 0 25 May 2022
Mask-guided Vision Transformer (MG-ViT) for Few-Shot Learning Yuzhong Chen Zhe Xiao Lin Zhao Lu Zhang Haixing Dai ... Tuo Zhang Changying Li Dajiang Zhu Tianming Liu Xi Jiang 44 18 0 20 May 2022
Activating More Pixels in Image Super-Resolution Transformer Xiangyu Chen Xintao Wang Jiantao Zhou Yu Qiao Chao Dong ViT 59 600 0 09 May 2022