How Much Position Information Do Convolutional Neural Networks Encode?

International Conference on Learning Representations (ICLR), 2020

22 January 2020

Papers citing "How Much Position Information Do Convolutional Neural Networks Encode?"

50 / 173 papers shown

Preventing Shortcuts in Adapter Training via Providing the Shortcuts

...

155

23 Oct 2025

PyramidStyler: Transformer-Based Neural Style Transfer with Pyramidal Positional Encoding and Reinforcement Learning

Raahul Krishna Durairaju

K. Saruladha

252

02 Oct 2025

ARMA Block: A CNN-Based Autoregressive and Moving Average Module for Long-Term Time Series Forecasting

123

12 Sep 2025

Encoder-Only Image Registration

262

30 Aug 2025

The Next Layer: Augmenting Foundation Models with Structure-Preserving and Attention-Guided Learning for Local Patches to Global Context Awareness in Computational Pathology

Muhammad Waqas

Rukhmini Bandyopadhyay

...

Luisa Maren Solis Soto

Jianjun Zhang

Jia Wu

MedIm

169

27 Aug 2025

Processing and acquisition traces in visual encoders: What does CLIP know about your camera?

Ryan Ramos

Vladan Stojnić

Giorgos Kordopatis-Zilos

Yuta Nakashima

Giorgos Tolias

Noa Garcia

230

14 Aug 2025

On Geometry-Enhanced Parameter-Efficient Fine-Tuning for 3D Scene Segmentation

452

28 May 2025

A Comparative Study on Positional Encoding for Time-frequency Domain Dual-path Transformer-based Source Separation Models

Kohei Saijo

Tetsuji Ogawa

363

28 Apr 2025

Exploring Position Encoding in Diffusion U-Net for Training-free High-resolution Image Generation

392

12 Mar 2025

Impoola: The Power of Average Pooling for Image-Based Deep Reinforcement Learning

326

07 Mar 2025

LEDiT: Your Length-Extrapolatable Diffusion Transformer without Positional Encoding

...

547

06 Mar 2025

Comply: Learning Sentences with Complex Weights inspired by Fruit Fly OlfactionNeuro Inspired Computational Elements Workshop (NICE), 2025

622

03 Feb 2025

Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position EncodingAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

441

19 Jan 2025

TableTime: Reformulating Time Series Classification as Training-Free Table Understanding with Large Language Models

538

24 Nov 2024

PtychoFormer: A Transformer-based Model for Ptychographic Phase Retrieval

232

22 Oct 2024

Frontiers in Intelligent Colonoscopy

484

22 Oct 2024

SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers

Enze Xie

Han Cai

...

437

264

14 Oct 2024

HTR-VT: Handwritten Text Recognition with Vision TransformerPattern Recognition (Pattern Recogn.), 2024

Yuting Li

237

13 Sep 2024

Searching for Effective Preprocessing Method and CNN-based Architecture with Efficient Channel Attention on Speech Emotion RecognitionScientific Reports (Sci Rep), 2024

Byunggun Kim

Younghun Kwon

220

06 Sep 2024

UV-Mamba: A DCN-Enhanced State Space Model for Urban Village Boundary Identification in High-Resolution Remote Sensing ImagesIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

554

05 Sep 2024

An Investigation on The Position Encoding in Vision-Based Dynamics Prediction

Jiageng Zhu

Hanchen Xie

Jiazhi Li

Mahyar Khayatkhoei

Wael AbdAlmageed

261

27 Aug 2024

Deformation-Recovery Diffusion Model (DRDM): Instance Deformation for Image Manipulation and Synthesis

Tonia Vincent

Bartłomiej W. Papież

MedIm DiffM

339

10 Jul 2024

Changen2: Multi-Temporal Remote Sensing Generative Change Foundation Model

Zhuo Zheng

Stefano Ermon

Dongjun Kim

Liangpei Zhang

Yanfei Zhong

DiffM

297

26 Jun 2024

Wound Tissue Segmentation in Diabetic Foot Ulcer Images Using Deep Learning: A Pilot Study

Yash Patel

Sandeep Gopalakrishnan

Keke Chen

Zeyun Yu

204

23 Jun 2024

Region-aware Grasp Framework with Normalized Grasp Space for Efficient 6-DoF Grasping

312

03 Jun 2024

Pseudo Channel: Time Embedding for Motor Imagery Decoding

Zhengqing Miao

Meirong Zhao

250

21 May 2024

CSTA: CNN-based Spatiotemporal Attention for Video Summarization

393

20 May 2024

Towards Gradient-based Time-Series Explanations through a SpatioTemporal Attention Network

Min Hun Lee

AI4TS ViT FAtt

246

18 May 2024

EMCAD: Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation

430

259

11 May 2024

GreedyViG: Dynamic Axial Graph Construction for Efficient Vision GNNs

235

10 May 2024

Gasformer: A Transformer-based Architecture for Segmenting Methane Emissions from Livestock in Optical Gas Imaging

207

16 Apr 2024

SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation

292

15 Apr 2024

Accuracy enhancement method for speech emotion recognition from spectrogram using temporal frequency correlation and positional information learning through knowledge transfer

Jeongho Kim

Seung-Ho Lee

190

26 Mar 2024

Spectral Norm of Convolutional Layers with Circular and Zero Paddings

Blaise Delattre

Quentin Barthélemy

Alexandre Allauzen

411

31 Jan 2024

End-to-end Multi-Instance Robotic Reaching from Monocular VisionIEEE International Conference on Robotics and Automation (ICRA), 2021

Zheyu Zhuang

Xin Yu

Robert E. Mahony

243

22 Jan 2024

MVSFormer++: Revealing the Devil in Transformer's Details for Multi-View StereoInternational Conference on Learning Representations (ICLR), 2024

Chenjie Cao

Xinlin Ren

Yanwei Fu

269

22 Jan 2024

CoordGate: Efficiently Computing Spatially-Varying Convolutions in Convolutional Neural NetworksBritish Machine Vision Conference (BMVC), 2024

S. Howard

P. Norreys

Andreas Döpp

274

09 Jan 2024

Graph Neural Networks with Diverse Spectral FilteringThe Web Conference (WWW), 2023

459

14 Dec 2023

GenDepth: Generalizing Monocular Depth Estimation for Arbitrary Camera Parameters via Ground Plane Embedding

351

10 Dec 2023

Hacking Task Confounder in Meta-LearningInternational Joint Conference on Artificial Intelligence (IJCAI), 2023

639

10 Dec 2023

BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D Scene GenerationComputer Vision and Pattern Recognition (CVPR), 2023

302

04 Dec 2023

TransNeXt: Robust Foveal Visual Perception for Vision TransformersComputer Vision and Pattern Recognition (CVPR), 2023

Dai Shi

ViT

447

321

28 Nov 2023

Spatially Covariant Image Registration with Text PromptsIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2023

Xiang Chen

Min Liu

Rongguang Wang

Renjiu Hu

Dongdong Liu

Gaolei Li

Hang Zhang

MedIm

375

27 Nov 2023

Vision Big Bird: Random Sparsification for Full Attention

Zhemin Zhang

Xun Gong

ViT

225

10 Nov 2023

G-CASCADE: Efficient Cascaded Graph Convolutional Decoding for 2D Medical Image SegmentationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Md Mostafijur Rahman

R. Marculescu

MedIm

269

24 Oct 2023

ObjFormer: Learning Land-Cover Changes From Paired OSM Data and Optical High-Resolution Imagery via Object-Guided TransformerIEEE Transactions on Geoscience and Remote Sensing (TGRS), 2023

Hongruixuan Chen

Cuiling Lan

Jian Song

Clifford Broni-Bediako

Junshi Xia

Xiangwei Zhu

342

04 Oct 2023

Imperceptible Adversarial Attack on Deep Neural Networks from Image Boundary

Fahad Alrasheedi

Agnibh Dasgupta

AAML

279

29 Aug 2023

Radio2Text: Streaming Speech Recognition Using mmWave Radio SignalsProceedings of the ACM on Interactive Mobile Wearable and Ubiquitous Technologies (IMWUT), 2023

292

16 Aug 2023

On the Interplay of Convolutional Padding and Adversarial Robustness

Paul Gavrikov

J. Keuper

AAML

389

12 Aug 2023

Vision Backbone Enhancement via Multi-Stage Cross-Scale Attention

Liang Shang

386

10 Aug 2023