v1v2v3v4v5 (latest)

On the Connection between Local Attention and Dynamic Depth-wise Convolution

International Conference on Learning Representations (ICLR), 2021

8 June 2021

Ming-Ming Cheng

Jingdong Wang

ArXiv (abs)PDF HTML Github (184★)

Papers citing "On the Connection between Local Attention and Dynamic Depth-wise Convolution"

50 / 56 papers shown

Alias-Free ViT: Fractional Shift Invariance via Linear Attention

H. Michaeli

Daniel Soudry

228

26 Oct 2025

IONext: Unlocking the Next Era of Inertial Odometry

227

23 Jul 2025

Adaptive Dual-domain Learning for Underwater Image EnhancementAAAI Conference on Artificial Intelligence (AAAI), 2025

Lingtao Peng

Liheng Bian

392

27 Apr 2025

RCCFormer: A Robust Crowd Counting Network Based on Transformer

233

07 Apr 2025

VMamba: Visual State Space ModelNeural Information Processing Systems (NeurIPS), 2024

1.4K

2,039

31 Dec 2024

Router-Tuning: A Simple and Effective Approach for Enabling Dynamic-Depth in Transformers

540

17 Oct 2024

big.LITTLE Vision Transformer for Efficient Visual Recognition

Yulong Wang

Jifeng Dai

295

14 Oct 2024

Unifying Dimensions: A Linear Adaptive Approach to Lightweight Image Super-Resolution

Zhenyu Hu

Wanjie Sun

259

26 Sep 2024

MALT: Multi-scale Action Learning Transformer for Online Action Detection

270

31 May 2024

Demystify Mamba in Vision: A Linear Attention Perspective

Gao Huang

417

200

26 May 2024

Partial Large Kernel CNNs for Efficient Super-Resolution

255

18 Apr 2024

Enhancing Efficiency in Vision Transformer Networks: Design Techniques and Insights

...

Ehsan Khodapanah Aghdam

Amirhossein Kazerouni

Ilker Hacihaliloglu

Dorit Merhof

348

28 Mar 2024

HIRI-ViT: Scaling Vision Transformer with High Resolution InputsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

Ting Yao

Yehao Li

Yingwei Pan

Tao Mei

ViT

221

18 Mar 2024

Frequency-Adaptive Dilated Convolution for Semantic SegmentationComputer Vision and Pattern Recognition (CVPR), 2024

Linwei Chen

Lin Gu

Ying Fu

843

117

08 Mar 2024

Multi-step Temporal Modeling for UAV Tracking

257

07 Mar 2024

ConvTimeNet: A Deep Hierarchical Fully Convolutional Model for Multivariate Time Series Analysis

Mingyue Cheng

Qi Liu

285

03 Mar 2024

How Do Humans Write Code? Large Models Do It the Same Way Too

Long Li

Xuzheng He

LRM

214

24 Feb 2024

Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision ApplicationsComputer Vision and Pattern Recognition (CVPR), 2024

...

Yu Qiao

212

179

11 Jan 2024

Factorization Vision Transformer: Modeling Long Range Dependency with Local Window CostIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2023

255

14 Dec 2023

TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual RecognitionIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2023

Chuan Wu

Yizhou Yu

ViT

656

118

30 Oct 2023

Interpret Vision Transformers as ConvNets with Dynamic Convolutions

310

19 Sep 2023

DAT++: Spatially Dynamic Vision Transformer with Deformable Attention

Gao Huang

356

04 Sep 2023

SPANet: Frequency-balancing Token Mixer using Spectral Pooling Aggregation ModulationIEEE International Conference on Computer Vision (ICCV), 2023

373

22 Aug 2023

SCSC: Spatial Cross-scale Convolution Module to Strengthen both CNNs and Transformers

Xijun Wang

Xiaojie Chu

Chunrui Han

Xiangyu Zhang

ViT

166

14 Aug 2023

Dual Aggregation Transformer for Image Super-ResolutionIEEE International Conference on Computer Vision (ICCV), 2023

Jinjin Gu

380

334

07 Aug 2023

Frequency Disentangled Features in Neural Image CompressionInternational Conference on Information Photonics (ICIP), 2023

Ali Zafari

Atefeh Khoshkhahtinat

P. Mehta

Mohammad Saeed Ebrahimi Saadabadi

Mohammad Akyash

Nasser M. Nasrabadi

269

04 Aug 2023

Recent Advances of Local Mechanisms in Computer Vision: A Survey and Outlook of Recent Work

Qiangchang Wang

Yilong Yin

352

02 Jun 2023

Implicit Temporal Modeling with Learnable Alignment for Video RecognitionIEEE International Conference on Computer Vision (ICCV), 2023

Zuxuan Wu

366

20 Apr 2023

Transformer-Based Visual Segmentation: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Xiangtai Li

579

281

19 Apr 2023

InceptionNeXt: When Inception Meets ConvNeXtComputer Vision and Pattern Recognition (CVPR), 2023

655

310

29 Mar 2023

Transformers in Speech Processing: A Survey

521

21 Mar 2023

KBNet: Kernel Basis Network for Image Restoration

287

06 Mar 2023

DilateFormer: Multi-Scale Dilated Transformer for Visual RecognitionIEEE transactions on multimedia (IEEE TMM), 2023

Yaowei Wang

345

281

03 Feb 2023

DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks for Image Super-ResolutionIEEE International Conference on Computer Vision (ICCV), 2023

Xiang Li

Jin-shan Pan

Jinhui Tang

Jiangxin Dong

215

05 Jan 2023

Adaptively Clustering Neighbor Elements for Image-Text Generation

631

05 Jan 2023

A Close Look at Spatial Modeling: From Attention to Convolution

Huan Wang

202

23 Dec 2022

Reversible Column NetworksInternational Conference on Learning Representations (ICLR), 2022

Xiangyu Zhang

344

22 Dec 2022

Rethinking Vision Transformers for MobileNet Size and SpeedIEEE International Conference on Computer Vision (ICCV), 2022

463

296

15 Dec 2022

FsaNet: Frequency Self-attention for Semantic SegmentationIEEE Transactions on Image Processing (IEEE TIP), 2022

327

28 Nov 2022

Conv2Former: A Simple Transformer-Style ConvNet for Visual RecognitionIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

310

239

22 Nov 2022

InternImage: Exploring Large-Scale Vision Foundation Models with Deformable ConvolutionsComputer Vision and Pattern Recognition (CVPR), 2022

...

Yu Qiao

668

1,058

10 Nov 2022

Demystify Transformers & Convolutions in Modern Image Deep NetworksIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

...

360

10 Nov 2022

MetaFormer Baselines for VisionIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Weihao Yu

329

304

24 Oct 2022

Understanding the Covariance Structure of Convolutional FiltersInternational Conference on Learning Representations (ICLR), 2022

Asher Trockman

Devin Willmott

J. Zico Kolter

344

07 Oct 2022

DMFormer: Closing the Gap Between CNN and Vision TransformersIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Dongsheng Li

408

16 Sep 2022

An Efficient Spatio-Temporal Pyramid Transformer for Action DetectionEuropean Conference on Computer Vision (ECCV), 2022

Yuetian Weng

Zizheng Pan

Mingfei Han

Xiaojun Chang

Bohan Zhuang

ViT

230

21 Jul 2022

Rethinking Attention Mechanism in Time Series ClassificationInformation Sciences (Inf. Sci.), 2022

227

14 Jul 2022

LargeKernel3D: Scaling up Kernels in 3D Sparse CNNsComputer Vision and Pattern Recognition (CVPR), 2022

Xiaojuan Qi

334

139

21 Jun 2022

EfficientFormer: Vision Transformers at MobileNet SpeedNeural Information Processing Systems (NeurIPS), 2022

868

576

02 Jun 2022

Transforming medical imaging with Transformers? A comparative review of key properties, current progresses, and future perspectives

Bennett A. Landman

547

185

02 Jun 2022