Title
Spectral State Space Model for Rotation-Invariant Visual Representation Learning Sahar Dastani Ali Bahri Moslem Yazdanpanah Mehrdad Noori David Osowiechi ... Farzad Beizaee Milad Cheraghalikhani A. Mondal H. Lombaert Christian Desrosiers 50 0 0 09 Mar 2025
A Survey on Mamba Architecture for Vision Applications Fady Ibrahim Guangjun Liu Guanghui Wang Mamba 48 2 0 11 Feb 2025
VMamba: Visual State Space Model Yue Liu Yunjie Tian Yuzhong Zhao Hongtian Yu Lingxi Xie Yaowei Wang Qixiang Ye Jianbin Jiao Yunfan Liu Mamba 106 592 0 31 Dec 2024
Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual Attacks Yong Xie Weijie Zheng Hanxun Huang Guangnan Ye Xingjun Ma AAML 69 1 0 20 Nov 2024
Breaking the Low-Rank Dilemma of Linear Attention Qihang Fan Huaibo Huang Ran He 28 0 0 12 Nov 2024
PitVis-2023 Challenge: Workflow Recognition in videos of Endoscopic Pituitary Surgery Adrito Das Danyal Z. Khan Dimitrios Psychogyios Yitong Zhang John G. Hanrahan ... Santiago Rodriguez Pablo Arbelaez Danail Stoyanov Hani J. Marcus Sophia Bano 29 5 0 02 Sep 2024
MambaVision: A Hybrid Mamba-Transformer Vision Backbone Ali Hatamizadeh Jan Kautz Mamba 33 56 0 10 Jul 2024
HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution Xiang Zhang Yulun Zhang Fisher Yu 29 15 0 08 Jul 2024
A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion Xiaoli Zhang Liying Wang Libo Zhao Xiongfei Li Siwei Ma 31 0 0 11 Jun 2024
The 3D-PC: a benchmark for visual perspective taking in humans and machines Drew Linsley Peisen Zhou A. Ashok Akash Nagaraj Gaurav Gaonkar Francis E Lewis Zygmunt Pizlo Thomas Serre 41 6 0 06 Jun 2024
LookHere: Vision Transformers with Directed Attention Generalize and Extrapolate A. Fuller Daniel G. Kyrollos Yousef Yassin James R. Green 34 2 0 22 May 2024
Vision Transformer with Sparse Scan Prior Qihang Fan Huaibo Huang Mingrui Chen Ran He ViT 36 4 0 22 May 2024
Unsupervised Dynamics Prediction with Object-Centric Kinematics Yeon-Ji Song Suhyung Choi Jaein Kim Jin-Hwa Kim Byoung-Tak Zhang 31 0 0 29 Apr 2024
Enhancing Efficiency in Vision Transformer Networks: Design Techniques and Insights Moein Heidari Reza Azad Sina Ghorbani Kolahi René Arimond Leon Niggemeier ... Afshin Bozorgpour Ehsan Khodapanah Aghdam A. Kazerouni I. Hacihaliloglu Dorit Merhof 41 7 0 28 Mar 2024
Approximate Nullspace Augmented Finetuning for Robust Vision Transformers Haoyang Liu Aditya Singh Yijiang Li Haohan Wang AAML ViT 28 1 0 15 Mar 2024
Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures Yuchen Duan Weiyun Wang Zhe Chen Xizhou Zhu Lewei Lu Tong Lu Yu Qiao Hongsheng Li Jifeng Dai Wenhai Wang ViT 38 44 0 04 Mar 2024
Transformer-CNN Fused Architecture for Enhanced Skin Lesion Segmentation Siddharth Tiwari MedIm ViT 20 0 0 10 Jan 2024
MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness Xiaoyun Xu Shujian Yu Jingzheng Wu S. Picek AAML 33 0 0 08 Dec 2023
SCHEME: Scalable Channel Mixer for Vision Transformers Deepak Sridhar Yunsheng Li Nuno Vasconcelos 18 0 0 01 Dec 2023
Dynamic Association Learning of Self-Attention and Convolution in Image Restoration Kui Jiang Xuemei Jia Wenxin Huang Wenbin Wang Zheng Wang Junjun Jiang 20 1 0 09 Nov 2023
EfficientOCR: An Extensible, Open-Source Package for Efficiently Digitizing World Knowledge Tom Bryan Jacob Carlson Abhishek Arora Melissa Dell 18 8 0 16 Oct 2023
DimCL: Dimensional Contrastive Learning For Improving Self-Supervised Learning Thanh Nguyen T. Pham Chaoning Zhang T. Luu Thang Vu Chang-Dong Yoo 17 9 0 21 Sep 2023
Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers Tobias Christian Nauen Sebastián M. Palacio Federico Raue Andreas Dengel 35 3 0 18 Aug 2023
Dual Aggregation Transformer for Image Super-Resolution Zheng Chen Yulun Zhang Jinjin Gu L. Kong Xiaokang Yang F. I. F. Richard Yu ViT 11 163 0 07 Aug 2023
On the unreasonable vulnerability of transformers for image restoration -- and an easy fix Shashank Agnihotri Kanchana Vaishnavi Gandikota Julia Grabinski Paramanand Chandramouli M. Keuper 30 8 0 25 Jul 2023
Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How Sebastian Pineda Arango Fabio Ferreira Arlind Kadra Frank Hutter Frank Hutter Josif Grabocka 24 15 0 06 Jun 2023
Lightweight Vision Transformer with Bidirectional Interaction Qihang Fan Huaibo Huang Xiaoqiang Zhou Ran He ViT 27 27 0 01 Jun 2023
Efficient OCR for Building a Diverse Digital History Jacob Carlson Tom Bryan Melissa Dell 16 11 0 05 Apr 2023
Vision Transformer with Quadrangle Attention Qiming Zhang Jing Zhang Yufei Xu Dacheng Tao ViT 19 38 0 27 Mar 2023
A Comprehensive Study on Robustness of Image Classification Models: Benchmarking and Rethinking Chang-Shu Liu Yinpeng Dong Wenzhao Xiang X. Yang Hang Su Junyi Zhu YueFeng Chen Yuan He H. Xue Shibao Zheng OOD VLM AAML 15 72 0 28 Feb 2023
AMD-HookNet for Glacier Front Segmentation Fei Wu Nora Gourmelon T. Seehaus Jianlin Zhang M. Braun Andreas K. Maier Vincent Christlein 11 9 0 06 Feb 2023
Improving the Accuracy-Robustness Trade-Off of Classifiers via Adaptive Smoothing Yatong Bai Brendon G. Anderson Aerin Kim Somayeh Sojoudi AAML 19 18 0 29 Jan 2023
Out of Distribution Performance of State of Art Vision Model Salman Rahman W. Lee 18 2 0 25 Jan 2023
Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth Estimation Ning Zhang F. Nex G. Vosselman N. Kerle MDE 15 150 0 23 Nov 2022
Attention-based Neural Cellular Automata Mattie Tesfaldet Derek Nowrouzezahrai C. Pal ViT 16 16 0 02 Nov 2022
CAB: Comprehensive Attention Benchmarking on Long Sequence Modeling Jinchao Zhang Shuyang Jiang Jiangtao Feng Lin Zheng Lingpeng Kong 3DV 39 9 0 14 Oct 2022
The Lie Derivative for Measuring Learned Equivariance Nate Gruver Marc Finzi Micah Goldblum A. Wilson 14 34 0 06 Oct 2022
Expediting Large-Scale Vision Transformer for Dense Prediction without Fine-tuning Weicong Liang Yuhui Yuan Henghui Ding Xiao Luo Weihong Lin Ding Jia Zheng-Wei Zhang Chao Zhang Hanhua Hu 17 25 0 03 Oct 2022
Effective Vision Transformer Training: A Data-Centric Perspective Benjia Zhou Pichao Wang Jun Wan Yan-Ni Liang Fan Wang 24 5 0 29 Sep 2022
On the interplay of adversarial robustness and architecture components: patches, convolution and attention Francesco Croce Matthias Hein 31 6 0 14 Sep 2022
CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse Transformers Runsheng Xu Zhengzhong Tu Hao Xiang Wei Shao Bolei Zhou Jiaqi Ma 19 216 0 05 Jul 2022
EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for Mobile Vision Applications Muhammad Maaz Abdelrahman M. Shaker Hisham Cholakkal Salman Khan Syed Waqas Zamir Rao Muhammad Anwer F. Khan ViT 25 182 0 21 Jun 2022
EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm Jiangning Zhang Xiangtai Li Yabiao Wang Chengjie Wang Yibo Yang Yong Liu Dacheng Tao ViT 28 32 0 19 Jun 2022
SimA: Simple Softmax-free Attention for Vision Transformers Soroush Abbasi Koohpayegani Hamed Pirsiavash 14 24 0 17 Jun 2022
Patch-level Representation Learning for Self-supervised Vision Transformers Sukmin Yun Hankook Lee Jaehyung Kim Jinwoo Shin ViT 10 63 0 16 Jun 2022
Fair Comparison between Efficient Attentions Jiuk Hong Chaehyeon Lee Soyoun Bang Heechul Jung 17 1 0 01 Jun 2022
Object-wise Masked Autoencoders for Fast Pre-training Jiantao Wu Shentong Mo ViT OCL 17 15 0 28 May 2022
Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral Compressive Imaging Yuanhao Cai Jing Lin Haoqian Wang Xin Yuan Henghui Ding Yulun Zhang Radu Timofte Luc Van Gool 70 115 0 20 May 2022
Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised Semantic Segmentation and Localization Luke Melas-Kyriazi Christian Rupprecht Iro Laina Andrea Vedaldi 28 158 0 16 May 2022
Attention Mechanism in Neural Networks: Where it Comes and Where it Goes Derya Soydaner 3DV 25 149 0 27 Apr 2022