Do Vision Transformers See Like Convolutional Neural Networks?

19 August 2021

Alexey Dosovitskiy

Papers citing "Do Vision Transformers See Like Convolutional Neural Networks?"

50 / 440 papers shown

Title
Learning Decomposable and Debiased Representations via Attribute-Centric Information Bottlenecks Jinyung Hong Eunyeong Jeon Changhoon Kim Keun Hee Park Utkarsh Nath Yezhou Yang P. Turaga Theodore P. Pavlic CML 22 0 0 21 Mar 2024
Topological Representations of Heterogeneous Learning Dynamics of Recurrent Spiking Neural Networks Biswadeep Chakraborty Saibal Mukhopadhyay 27 3 0 19 Mar 2024
Activating Wider Areas in Image Super-Resolution Cheng Cheng Hang Wang Hongbin Sun 32 10 0 13 Mar 2024
Attacking Transformers with Feature Diversity Adversarial Perturbation Chenxing Gao Hang Zhou Junqing Yu Yuteng Ye Jiale Cai Junle Wang Wei Yang AAML 32 3 0 10 Mar 2024
A spatiotemporal style transfer algorithm for dynamic visual stimulus generation Antonino Greco Markus Siegel 17 2 0 07 Mar 2024
Large Convolutional Model Tuning via Filter Subspace Wei Chen Zichen Miao Qiang Qiu 49 3 0 01 Mar 2024
LSPT: Long-term Spatial Prompt Tuning for Visual Representation Learning Shentong Mo Yansen Wang Xufang Luo Dongsheng Li VLM 27 1 0 27 Feb 2024
wmh_seg: Transformer based U-Net for Robust and Automatic White Matter Hyperintensity Segmentation across 1.5T, 3T and 7T Jinghang Li T. Santini Yuanzhe Huang J. M. Mettenburg Tamer S. Ibrahim Howard J. Aizenstein Minjie Wu MedIm OOD 29 1 0 20 Feb 2024
Balanced Data, Imbalanced Spectra: Unveiling Class Disparities with Spectral Imbalance Chiraag Kaushik Ran Liu Chi-Heng Lin Amrit Khera Matthew Y Jin Wenrui Ma Vidya Muthukumar Eva L. Dyer 38 3 0 18 Feb 2024
TaE: Task-aware Expandable Representation for Long Tail Class Incremental Learning Linjie Li S. Liu Zhenyu Wu JI yang CLL 29 0 0 08 Feb 2024
Question Aware Vision Transformer for Multimodal Reasoning Roy Ganz Yair Kittenplon Aviad Aberdam Elad Ben Avraham Oren Nuriel Shai Mazor Ron Litman 40 20 0 08 Feb 2024
Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining Jiarun Liu Hao Yang Hong-Yu Zhou Yan Xi Lequan Yu ... Yong Liang Guangming Shi Shaoting Zhang Hairong Zheng Shanshan Wang Mamba 48 143 0 05 Feb 2024
Exploring the Synergies of Hybrid CNNs and ViTs Architectures for Computer Vision: A survey Haruna Yunusa Shiyin Qin Abdulrahman Hamman Adama Chukkol Abdulganiyu Abdu Yusuf Isah Bello A. Lawan ViT 22 13 0 05 Feb 2024
Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning Haoyi Zhu Yating Wang Di Huang Weicai Ye Wanli Ouyang Tong He SSL 3DPC 39 20 0 04 Feb 2024
Convolution Meets LoRA: Parameter Efficient Finetuning for Segment Anything Model Zihan Zhong Zhiqiang Tang Tong He Haoyang Fang Chun Yuan 35 40 0 31 Jan 2024
A Novel Benchmark for Few-Shot Semantic Segmentation in the Era of Foundation Models Reda Bensaid Vincent Gripon Franccois Leduc-Primeau Lukas Mauch G. B. Hacene Fabien Cardinaux VLM 31 7 0 20 Jan 2024
Harmonized Spatial and Spectral Learning for Robust and Generalized Medical Image Segmentation Vandan Gorade Sparsh Mittal Debesh Jha Rekha Singhal Ulas Bagci 33 3 0 18 Jan 2024
Leveraging Gradients for Unsupervised Accuracy Estimation under Distribution Shift Renchunzi Xie Ambroise Odonnat Vasilii Feofanov I. Redko Jianfeng Zhang Bo An UQCV 70 1 0 17 Jan 2024
Mobile Contactless Palmprint Recognition: Use of Multiscale, Multimodel Embeddings Steven A. Grosz Akash Godbole Anil K. Jain 33 2 0 16 Jan 2024
Application of Deep Learning in Blind Motion Deblurring: Current Status and Future Prospects Yawen Xiang Heng Zhou Chengyang Li Fangwei Sun Zhongbo Li Yongqiang Xie 19 6 0 10 Jan 2024
Setting the Record Straight on Transformer Oversmoothing G. Dovonon M. Bronstein Matt J. Kusner 20 5 0 09 Jan 2024
Analyzing Local Representations of Self-supervised Vision Transformers Ani Vanyan Alvard Barseghyan Hakob Tamazyan Vahan Huroyan Hrant Khachatrian Martin Danelljan 36 3 0 31 Dec 2023
MIM4DD: Mutual Information Maximization for Dataset Distillation Yuzhang Shang Zhihang Yuan Yan Yan DD 30 13 0 27 Dec 2023
TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP Without Training Yuqi Lin Minghao Chen Kaipeng Zhang Hengjia Li Mingming Li Zheng Yang Dongqin Lv Binbin Lin Haifeng Liu Deng Cai CLIP VLM 44 12 0 20 Dec 2023
Transformers in Unsupervised Structure-from-Motion Hemang Chawla Arnav Varma Elahe Arani Bahram Zonooz ViT 21 1 0 16 Dec 2023
Efficient Multi-Object Pose Estimation using Multi-Resolution Deformable Attention and Query Aggregation Arul Selvam Periyasamy Vladimir Tsaturyan Sven Behnke ViT 24 2 0 13 Dec 2023
Identifying and Mitigating Model Failures through Few-shot CLIP-aided Diffusion Generation Atoosa Malemir Chegini S. Feizi VLM 33 4 0 09 Dec 2023
Bootstrapping SparseFormers from Vision Foundation Models Ziteng Gao Zhan Tong K. Lin Joya Chen Mike Zheng Shou 33 0 0 04 Dec 2023
Universal Deoxidation of Semiconductor Substrates Assisted by Machine-Learning and Real-Time-Feedback-Control Chaorong Shen Wenkang Zhan Jian Tang Zhaofeng Wu Bop Xu Chao Zhao Zhanguo Wang 29 0 0 04 Dec 2023
A Generalizable Deep Learning System for Cardiac MRI R. Shad C. Zakka Dhamanpreet Kaur R. Fong R. Filice ... Victor Ferrari Euan A. Ashley Michael A. Acker Curt P. Langlotz W. Hiesinger MedIm 46 1 0 01 Dec 2023
Improving Adversarial Transferability via Model Alignment A. Ma Amir-massoud Farahmand Yangchen Pan Philip H. S. Torr Jindong Gu AAML 26 5 0 30 Nov 2023
Corner-to-Center Long-range Context Model for Efficient Learned Image Compression Yang Sui Ding Ding Xiang Pan Xiaozhong Xu Shan Liu Bo Yuan Zhenzhong Chen 13 5 0 29 Nov 2023
PEAN: A Diffusion-Based Prior-Enhanced Attention Network for Scene Text Image Super-Resolution Zuoyan Zhao Hui Xue Pengfei Fang Shipeng Zhu DiffM 18 4 0 29 Nov 2023
Aligning Non-Causal Factors for Transformer-Based Source-Free Domain Adaptation Sunandini Sanyal Ashish Ramayee Asokan Suvaansh Bhambri YM Pradyumna Akshay Ravindra Kulkarni Jogendra Nath Kundu R. V. Babu CML 30 2 0 27 Nov 2023
Advancing Vision Transformers with Group-Mix Attention Chongjian Ge Xiaohan Ding Zhan Tong Li Yuan Jiangliu Wang Yibing Song Ping Luo 112 16 0 26 Nov 2023
ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy Kirill Vishniakov Zhiqiang Shen Zhuang Liu CLIP 25 16 0 15 Nov 2023
DONUT-hole: DONUT Sparsification by Harnessing Knowledge and Optimizing Learning Efficiency Azhar Shaikh Michael Cochez Denis Diachkov Michiel de Rijcke Sahar Yousefi 25 0 0 09 Nov 2023
GIST: Generated Inputs Sets Transferability in Deep Learning Florian Tambon Foutse Khomh G. Antoniol AAML 32 1 0 01 Nov 2023
PAUMER: Patch Pausing Transformer for Semantic Segmentation Evann Courdier Prabhu Teja Sivaprasad F. Fleuret 31 2 0 01 Nov 2023
On Measuring Fairness in Generative Models Christopher T. H. Teo Milad Abdollahzadeh Ngai-man Cheung EGVM 22 5 0 30 Oct 2023
Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic Segmentation Fei Zhang Tianfei Zhou Boyang Li Hao He Chaofan Ma Tianjiao Zhang Jiangchao Yao Ya-Qin Zhang Yanfeng Wang VLM 35 17 0 29 Oct 2023
Analyzing Vision Transformers for Image Classification in Class Embedding Space Martina G. Vilas Timothy Schaumlöffel Gemma Roig ViT 14 23 0 29 Oct 2023
Optimization-Free Test-Time Adaptation for Cross-Person Activity Recognition Shuoyuan Wang Jindong Wang Huajun Xi Bob Zhang Lei Zhang Hongxin Wei TTA 22 12 0 28 Oct 2023
Unlocking the Potential of Prompt-Tuning in Bridging Generalized and Personalized Federated Learning Wenlong Deng Christos Thrampoulidis Xiaoxiao Li 27 12 0 27 Oct 2023
MPrompt: Exploring Multi-level Prompt Tuning for Machine Reading Comprehension Guoxin Chen Yiming Qian Bowen Wang Liangzhi Li 18 7 0 27 Oct 2023
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model Karsten Roth Lukas Thede Almut Sophia Koepke Oriol Vinyals Olivier J. Hénaff Zeynep Akata AAML 17 11 0 26 Oct 2023
CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without Full Large Language Model Kaiyan Zhang Ning Ding Biqing Qi Xuekai Zhu Xinwei Long Bowen Zhou 38 4 0 24 Oct 2023
LoMAE: Low-level Vision Masked Autoencoders for Low-dose CT Denoising Dayang Wang Yongshun Xu Shuo Han Zhan Wu Li Zhou Bahareh Morovati Hengyong Yu MedIm 38 2 0 19 Oct 2023
Deep Neural Networks Can Learn Generalizable Same-Different Visual Relations Alexa R. Tartaglini Sheridan Feucht Michael A. Lepori Wai Keen Vong Charles Lovering Brenden Lake Ellie Pavlick ViT OOD 19 3 0 14 Oct 2023
ViT-A: Legged Robot Path Planning using Vision Transformer A Jianwei Liu Shirui Lyu Denis Hadjivelichkov Valerio Modugno Dimitrios Kanoulas 27 8 0 11 Oct 2023