CvT: Introducing Convolutions to Vision Transformers

IEEE International Conference on Computer Vision (ICCV), 2021

29 March 2021

Lu Yuan

Lei Zhang

ViT

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (227★)

Papers citing "CvT: Introducing Convolutions to Vision Transformers"

50 / 860 papers shown

SynCo: Synthetic Hard Negatives in Contrastive Learning for Better Unsupervised Visual Representations

Nikolaos Giakoumoglou

Tania Stathaki

SSL

544

03 Oct 2024

Beyond Skip Connection: Pooling and Unpooling Design for Elimination SingularitiesAAAI Conference on Artificial Intelligence (AAAI), 2024

Chengkun Sun

Jinqian Pan

Juoli Jin

Russell Stevens Terry

Jiang Bian

Jie Xu

179

20 Sep 2024

RingMo-Aerial: An Aerial Remote Sensing Foundation Model With Affine Transformation Contrastive LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

...

1.0K

20 Sep 2024

Sparks of Artificial General Intelligence(AGI) in Semiconductor Material Science: Early Explorations into the Next Frontier of Generative AI-Assisted Electron Micrograph Analysis

Sakhinana Sagar Srinivas

Geethan Sannidhi

Sreeja Gangasani

Chidaksh Ravuru

Venkataramana Runkana

229

17 Sep 2024

GLCONet: Learning Multi-source Perception Representation for Camouflaged Object DetectionIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2024

188

15 Sep 2024

Domain-Invariant Representation Learning of Bird Sounds

Nicolas Farrugia

433

13 Sep 2024

SDformer: Efficient End-to-End Transformer for Depth Completion

311

12 Sep 2024

ASSNet: Adaptive Semantic Segmentation Network for Microtumors and Multi-Organ Segmentation

Haolun Li

Guoheng Huang

Chi-Man Pun

Shoujun Zhou

ViT MedIm

175

12 Sep 2024

Advancing Depth Anything Model for Unsupervised Monocular Depth Estimation in Endoscopy

398

12 Sep 2024

PanAdapter: Two-Stage Fine-Tuning with Spatial-Spectral Priors Injecting for PansharpeningAAAI Conference on Artificial Intelligence (AAAI), 2024

LiangJian Deng

179

11 Sep 2024

Brain-Inspired Stepwise Patch Merging for Vision TransformersInternational Joint Conference on Artificial Intelligence (IJCAI), 2024

385

11 Sep 2024

Exploring Rich Subjective Quality Information for Image Quality Assessment in the Wild

Xiongkuo Min

Yixuan Gao

Yuqin Cao

Guangtao Zhai

Wenjun Zhang

Huifang Sun

C. Chen

152

09 Sep 2024

UNIT: Unifying Image and Text Recognition in One Vision EncoderNeural Information Processing Systems (NeurIPS), 2024

Yi Zhu

Jianhua Han

317

06 Sep 2024

MVTN: A Multiscale Video Transformer Network for Hand Gesture Recognition

251

05 Sep 2024

TBConvL-Net: A Hybrid Deep Learning Architecture for Robust Medical Image SegmentationPattern Recognition (Pattern Recogn.), 2024

Tariq M. Khan

268

05 Sep 2024

Frequency-Spatial Entanglement Learning for Camouflaged Object DetectionEuropean Conference on Computer Vision (ECCV), 2024

273

03 Sep 2024

Dreaming is All You Need

Mingze Ni

Wei Liu

140

03 Sep 2024

A Hybrid Transformer-Mamba Network for Single Image Deraining

Xiaochun Cao

335

31 Aug 2024

SMAFormer: Synergistic Multi-Attention Transformer for Medical Image SegmentationIEEE International Conference on Bioinformatics and Biomedicine (BIBM), 2024

751

31 Aug 2024

Parameter-Efficient Quantized Mixture-of-Experts Meets Vision-Language Instruction Tuning for Semiconductor Electron Micrograph Analysis

Sakhinana Sagar Srinivas

Chidaksh Ravuru

Geethan Sannidhi

Venkataramana Runkana

244

27 Aug 2024

Multi-Modal Instruction-Tuning Small-Scale Language-and-Vision Assistant for Semiconductor Electron Micrograph AnalysisAAAI Spring Symposia (SSS), 2024

Sakhinana Sagar Srinivas

Geethan Sannidhi

Venkataramana Runkana

270

27 Aug 2024

Hierarchical Network Fusion for Multi-Modal Electron Micrograph Representation Learning with Foundational Large Language Models

Sakhinana Sagar Srinivas

Geethan Sannidhi

Venkataramana Runkana

279

24 Aug 2024

Preliminary Investigations of a Multi-Faceted Robust and Synergistic Approach in Semiconductor Electron Micrograph Analysis: Integrating Vision Transformers with Large Language and Multimodal Models

Sakhinana Sagar Srinivas

Geethan Sannidhi

Sreeja Gangasani

Chidaksh Ravuru

Venkataramana Runkana

283

24 Aug 2024

Foundational Model for Electron Micrograph Analysis: Instruction-Tuning Small-Scale Language-and-Vision Assistant for Enterprise Adoption

Sakhinana Sagar Srinivas

Chidaksh Ravuru

Geethan Sannidhi

Venkataramana Runkana

156

23 Aug 2024

Vision HgNN: An Electron-Micrograph is Worth Hypergraph of Hypernodes

Sakhinana Sagar Srinivas

Rajat Kumar Sarkar

Sreeja Gangasani

Venkataramana Runkana

320

21 Aug 2024

sTransformer: A Modular Approach for Extracting Inter-Sequential and Temporal Information for Time-Series Forecasting

Xiaomin Lin

133

19 Aug 2024

MetaSeg: MetaFormer-based Global Contexts-aware Network for Efficient Semantic SegmentationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

275

14 Aug 2024

Advanced Vision Transformers and Open-Set Learning for Robust Mosquito Classification: A Novel Approach to Entomological Studies

Ahmed Akib Jawad Karim

Muhammad Zawad Mahmud

Riasat Khan

121

12 Aug 2024

Efficient Visual Representation Learning with Heat Conduction EquationInternational Joint Conference on Artificial Intelligence (IJCAI), 2024

Zhemin Zhang

Xun Gong

DiffM 3DV

289

12 Aug 2024

MacFormer: Semantic Segmentation with Fine Object Boundaries

284

11 Aug 2024

CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications

Tianfang Zhang

Lei Li

Chen Qian

213

07 Aug 2024

Multi-label Sewer Pipe Defect Recognition with Mask Attention Feature Enhancement and Label Correlation Learning

177

01 Aug 2024

Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets

444

28 Jul 2024

A Survey on Cell Nuclei Instance Segmentation and Classification: Leveraging Context and Attention

274

26 Jul 2024

VSSD: Vision Mamba with Non-Causal State Space Duality

351

26 Jul 2024

Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers

...

Caiwen Ding

244

25 Jul 2024

How Lightweight Can A Vision Transformer Be

Jen Hong Tan

ViT MoE

227

25 Jul 2024

Embedding-Free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation

246

24 Jul 2024

HERGen: Elevating Radiology Report Generation with Longitudinal Data

267

21 Jul 2024

DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention

296

18 Jul 2024

SegPoint: Segment Any Point Cloud via Large Language Model

Henghui Ding

255

18 Jul 2024

AFIDAF: Alternating Fourier and Image Domain Adaptive Filters as an Efficient Alternative to Attention in ViTs

212

16 Jul 2024

TCFormer: Visual Recognition via Token Clustering Transformer

Wentao Liu

Wanli Ouyang

Ping Luo

Xiaogang Wang

198

16 Jul 2024

TractGraphFormer: Anatomically Informed Hybrid Graph CNN-Transformer Network for Interpretable Sex and Age Prediction from Diffusion MRI Tractography

Suheyla Cetin Karayumak

...

192

11 Jul 2024

Parameter Efficient Fine Tuning for Multi-scanner PET to PET Reconstruction

Yumin Kim

Gayoon Choi

Seong Jae Hwang

179

10 Jul 2024

HAFormer: Unleashing the Power of Hierarchy-Aware Features for Lightweight Semantic Segmentation

287

10 Jul 2024

iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency

Haruna Yunusa

Qin Shiyin

Abdulrahman Hamman Adama Chukkol

Isah Bello

A. Lawan

Isah Bello

292

10 Jul 2024

Fish-Vista: A Multi-Purpose Dataset for Understanding & Identification of Traits from Images

Kazi Sajeed Mehrab

M. Maruf

Arka Daw

Harish Babu Manogaran

Abhilash Neog

...

Paula Mabee

Wasila Dahdul

Anuj Karpatne

Wasila M Dahdul

Anuj Karpatne

459

10 Jul 2024

CTRL-F: Pairing Convolution with Transformer for Image Classification via Multi-Level Feature Cross-Attention and Representation Learning Fusion

245

09 Jul 2024

CBM: Curriculum by Masking

Andrei Jarca

Florinel-Alin Croitoru

Radu Tudor Ionescu

261

06 Jul 2024