Focal Self-attention for Local-Global Interactions in Vision Transformers

1 July 2021

Jianwei Yang

Lu Yuan

Papers citing "Focal Self-attention for Local-Global Interactions in Vision Transformers"

50 / 263 papers shown

Title
ViT $^3$ : Unlocking Test-Time Training in Vision Dongchen Han Y. Li Tianyu Li Z. Cao Ziming Wang Jun Song Yu Cheng Bo Zheng Gao Huang ViT 20 0 0 01 Dec 2025
Hilbert-Guided Block-Sparse Local Attention Yunge Li Lanyu Xu 76 0 0 08 Nov 2025
Attentive Convolution: Unifying the Expressivity of Self-Attention with Convolutional Efficiency Hao Yu H. G. Chen Yan Jiang Wei Peng Zhaodong Sun Samuel Kaski Guoying Zhao 125 0 0 23 Oct 2025
Region-Aware Deformable Convolutions Abolfazl Saheban Maleki Maryam Imani 126 0 0 18 Sep 2025
Vision encoders should be image size agnostic and task driven Nedyalko Prisadnikov Danda Pani Paudel Yuqian Fu Luc Van Gool 68 1 0 22 Aug 2025
Learning Spatial Decay for Vision Transformers Yuxin Mao Zhen Qin Jinxing Zhou Bin Fan Jing Zhang Yiran Zhong Yuchao Dai 84 1 0 13 Aug 2025
RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization Wen Huang Jiarui Yang Tao Dai Jiawei Li Shaoxiong Zhan Bin Wang Shu-Tao Xia 100 0 0 13 Aug 2025
UniConvNet: Expanding Effective Receptive Field while Maintaining Asymptotically Gaussian Distribution for ConvNets of Any Scale Yuhao Wang Wei Xi 176 1 0 12 Aug 2025
Detection Transformers Under the Knife: A Neuroscience-Inspired Approach to Ablations Nils Hütten Florian Hölken Hasan Tercan Tobias Meisen MedIm 132 0 0 29 Jul 2025
Resolving Token-Space Gradient Conflicts: Token Space Manipulation for Transformer-Based Multi-Task Learning Wooseong Jeong Kuk-Jin Yoon 275 0 0 10 Jul 2025
AnchorFormer: Differentiable Anchor Attention for Efficient Vision TransformerPattern Recognition Letters (Pattern Recogn. Lett.), 2025 Jiquan Shan Junxiao Wang Lifeng Zhao Liang Cai Hongyuan Zhang Ioannis Liritzis ViT 504 7 0 22 May 2025
Image Recognition with Online Lightweight Vision Transformer: A Survey Zherui Zhang Rongtao Xu Jie Zhou Changwei Wang Xingtian Pei ... Jiguang Zhang Li Guo Longxiang Gao Wenyuan Xu Shibiao Xu ViT 1.1K 2 0 06 May 2025
Crafting Query-Aware Selective Attention for Single Image Super-Resolution Junyoung Kim Youngrok Kim Siyeol Jung Donghyun Min 279 0 0 09 Apr 2025
DFormerv2: Geometry Self-Attention for RGBD Semantic SegmentationComputer Vision and Pattern Recognition (CVPR), 2025 Bo Yin Jiao-Long Cao Ming-Ming Cheng Qibin Hou 3DPC MDE 238 12 0 07 Apr 2025
Atlas: Multi-Scale Attention Improves Long Context Image Modeling Kumar Krishna Agrawal Long Lian Lu Liu Natalia Harguindeguy Boyi Li Alexander Bick Maggie Chung Trevor Darrell Adam Yala ViT 168 1 0 16 Mar 2025
DCAT: Dual Cross-Attention Fusion for Disease Classification in Radiological Images with Uncertainty Estimation Jutika Borah H. Singh MedIm 336 0 0 14 Mar 2025
MaskAttn-UNet: A Mask Attention-Driven Framework for Universal Low-Resolution Image Segmentation Anzhe Cheng Chenzhong Yin Yu Chang Heng Ping Shixuan Li Shahin Nazarian Paul Bogdan SSeg 540 1 0 11 Mar 2025
Adjoint sharding for very long context training of state space models Xingzi Xu Amir Tavanaei Kavosh Asadi Karim Bouyarmane 173 0 0 03 Jan 2025
STARFormer: A Novel Spatio-Temporal Aggregation Reorganization Transformer of FMRI for Brain Disorder DiagnosisNeural Networks (NN), 2024 Wenhao Dong Yuchen Ren Weiming Zeng Lei Chen Hongjie Yan W. Siok Nizhuan Wang 243 2 0 31 Dec 2024
VMamba: Visual State Space ModelNeural Information Processing Systems (NeurIPS), 2024 Yue Liu Yunjie Tian Yuzhong Zhao Hongtian Yu Lingxi Xie Yaowei Wang Qixiang Ye Jianbin Jiao Yunfan Liu Mamba 952 1,433 0 31 Dec 2024
Real Classification by Description: Extending CLIP's Limits of Part Attributes Recognition Ethan Baron Idan Tankel Peter Tu Guy Ben-Yosef VLM 316 2 0 18 Dec 2024
Bridging the Divide: Reconsidering Softmax and Linear AttentionNeural Information Processing Systems (NeurIPS), 2024 Dongchen Han Yifan Pu Zhuofan Xia Yizeng Han Xuran Pan Xiu Li Jiwen Lu Shiji Song Gao Huang 237 33 0 09 Dec 2024
Scaling Spike-driven Transformer with Efficient Spike Firing Approximation TrainingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024 Man Yao Xuerui Qiu Tianxiang Hu J. Hu Yuhong Chou Keyu Tian Jianxing Liao Luziwei Leng Bo Xu Guoqi Li 332 45 0 25 Nov 2024
Breaking the Low-Rank Dilemma of Linear AttentionComputer Vision and Pattern Recognition (CVPR), 2024 Qihang Fan Huaibo Huang Ran He 383 13 0 12 Nov 2024
Event-guided Low-light Video Semantic SegmentationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024 Zhen Yao Mooi Choo Choo Chuah 191 12 0 01 Nov 2024
COSNet: A Novel Semantic Segmentation Network using Enhanced Boundaries in Cluttered ScenesIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024 Muhammad Ali Mamoona Javaid Mubashir Noman Mustansar Fiaz Salman Khan 209 3 0 31 Oct 2024
PixelGaussian: Generalizable 3D Gaussian Reconstruction from Arbitrary Views Xin Fei Wenzhao Zheng Yueqi Duan Weidong Zhan Masayoshi Tomizuka Kurt Keutzer Jiwen Lu 3DGS 241 14 0 24 Oct 2024
MoH: Multi-Head Attention as Mixture-of-Head AttentionInternational Conference on Machine Learning (ICML), 2024 Peng Jin Bo Zhu Li Yuan Shuicheng Yan MoE 341 33 0 15 Oct 2024
DeBiFormer: Vision Transformer with Deformable Agent Bi-level Routing AttentionAsian Conference on Computer Vision (ACCV), 2024 Nguyen Huu Bao Long Chenyu Zhang Yuzhi Shi Tsubasa Hirakawa Takayoshi Yamashita Tohgoroh Matsui H. Fujiyoshi 179 7 0 11 Oct 2024
Improving Image Clustering with Artifacts Attenuation via Inference-Time Attention EngineeringAsian Conference on Computer Vision (ACCV), 2024 Kazumoto Nakamura Yuji Nozawa Yu-Chieh Lin K. Nakata Youyang Ng ViT 117 3 0 07 Oct 2024
CBAM-SwinT-BL: Small Rail Surface Defect Detection Method Based on Swin Transformer with Block Level CBAM EnhancementIEEE Access (IEEE Access), 2024 Jiayi Zhao Alison Wun-lam Yeung Ali Muhammad Songjiang Lai Vincent To-Yee NG 205 9 0 30 Sep 2024
Insight Any Instance: Promptable Instance Segmentation for Remote Sensing ImagesIEEE Transactions on Geoscience and Remote Sensing (TGRS), 2024 Xuexue Li VLM ISeg 229 2 0 11 Sep 2024
A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships Gracile Astlin Pereira Muhammad Hussain ViT 192 31 0 27 Aug 2024
Efficient Visual Representation Learning with Heat Conduction EquationInternational Joint Conference on Artificial Intelligence (IJCAI), 2024 Zhemin Zhang Xun Gong DiffM 3DV 227 0 0 12 Aug 2024
Embedding-Free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation Hyunwoo Yu Yubin Cho Beoungwoo Kang Seunghun Moon Kyeongbo Kong Suk-Ju Kang 184 11 0 24 Jul 2024
SFPNet: Sparse Focal Point Network for Semantic Segmentation on General LiDAR Point Clouds Yanbo Wang Wentao Zhao Chuan Cao Tianchen Deng Jingchuan Wang Weidong Chen 3DPC 243 17 0 16 Jul 2024
iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency Haruna Yunusa Qin Shiyin Abdulrahman Hamman Adama Chukkol Isah Bello A. Lawan Isah Bello 261 4 0 10 Jul 2024
Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes Qi Ma Danda Pani Paudel E. Konukoglu Luc Van Gool 244 10 0 25 Jun 2024
Fusion of regional and sparse attention in Vision Transformers Nabil Ibtehaz Ning Yan Masood S. Mortazavi Daisuke Kihara ViT 190 2 0 13 Jun 2024
You Only Need Less Attention at Each Stage in Vision Transformers Shuoxi Zhang Hanpeng Liu Stephen Lin Kun He 214 15 0 01 Jun 2024
FocSAM: Delving Deeply into Focused Objects in Segmenting Anything You Huang Zongyu Lan Liujuan Cao Xianming Lin Shengchuan Zhang Guannan Jiang Rongrong Ji VLM 159 5 0 29 May 2024
ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention Bencheng Liao Xinggang Wang Lianghui Zhu Qian Zhang Chang Huang 275 8 0 28 May 2024
Demystify Mamba in Vision: A Linear Attention Perspective Dongchen Han Ziyi Wang Zhuofan Xia Yizeng Han Yifan Pu Chunjiang Ge Jun Song Shiji Song Bo Zheng Gao Huang Mamba 327 148 0 26 May 2024
Building Vision Models upon Heat Conduction Zhaozhi Wang Yue Liu Yunfan Liu Hongtian Yu Yaowei Wang QiXiang Ye ViT VLM 239 4 0 26 May 2024
LookHere: Vision Transformers with Directed Attention Generalize and Extrapolate A. Fuller Daniel G. Kyrollos Yousef Yassin James R. Green 286 4 0 22 May 2024
Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens Qihang Fan Huaibo Huang Mingrui Chen Ran He 308 3 0 22 May 2024
Vision Transformer with Sparse Scan Prior Qihang Fan Huaibo Huang Mingrui Chen ViT 349 7 0 22 May 2024
Towards Gradient-based Time-Series Explanations through a SpatioTemporal Attention Network Min Hun Lee AI4TS ViT FAtt 201 3 0 18 May 2024
Sparse Reconstruction of Optical Doppler Tomography with Alternative State Space Model and Attention Zhenghong Li Jiaxiang Ren Wensheng Cheng C. Du Yingtian Pan Haibin Ling H. Ling 202 0 0 26 Apr 2024
Multi-Scale Representations by Varying Window Attention for Semantic Segmentation Haotian Yan Ming Wu Chuang Zhang 251 28 0 25 Apr 2024

All Papers

Focal Self-attention for Local-Global Interactions in Vision Transformers

Papers citing "Focal Self-attention for Local-Global Interactions in Vision Transformers"