v1v2v3 (latest)

Mobile-Former: Bridging MobileNet and Transformer

Computer Vision and Pattern Recognition (CVPR), 2021

12 August 2021

Lu Yuan

Zicheng Liu

ViT

ArXiv (abs)PDF HTML

Papers citing "Mobile-Former: Bridging MobileNet and Transformer"

50 / 207 papers shown

Title
Rethinking Vision Transformer Depth via Structural Reparameterization Chengwei Zhou Vipin Chaudhary Gourav Datta ViT 52 0 0 24 Nov 2025
HDCNet: A Hybrid Depth Completion Network for Grasping Transparent and Reflective Objects Guanghu Xie Mingxu Li Songwei Wu Yang Liu Zongwu Xie Baoshi Cao Hong Liu 35 0 0 10 Nov 2025
Distilling Multilingual Vision-Language Models: When Smaller Models Stay Multilingual Sukrit Sriratanawilai Jhayahgrit Thongwat Romrawin Chumpu Patomporn Payoungkhamdee Sarana Nutanong Peerat Limkonchotiwat VLM 94 0 0 30 Oct 2025
WaveSeg: Enhancing Segmentation Precision via High-Frequency Prior and Mamba-Driven Spectrum Decomposition Guoan Xu Yang Xiao Wenjing Jia Guangwei Gao Guo-Jun Qi Chia-Wen Lin Mamba 180 0 0 24 Oct 2025
MECKD: Deep Learning-Based Fall Detection in Multilayer Mobile Edge Computing With Knowledge DistillationIEEE Sensors Journal (IEEE Sens. J.), 2024 Wei-Lung Mao Chun-Chi Wang Po-Heng Chou Kai-Chun Liu Yu Tsao 90 3 0 04 Oct 2025
I-Segmenter: Integer-Only Vision Transformer for Efficient Semantic Segmentation Jordan Sassoon Michal Szczepanski Martyna Poreba MQ VLM 107 0 0 12 Sep 2025
VCMamba: Bridging Convolutions with Multi-Directional Mamba for Efficient Visual Representation Mustafa Munir Alex Zhang R. Marculescu Mamba 176 0 0 04 Sep 2025
A Lightweight Convolution and Vision Transformer integrated model with Multi-scale Self-attention Mechanism Yi Zhang Lingxiao Wei Bowei Zhang Z. Liu Kai Yi Shu Hu ViT 88 0 0 23 Aug 2025
UniConvNet: Expanding Effective Receptive Field while Maintaining Asymptotically Gaussian Distribution for ConvNets of Any Scale Yuhao Wang Wei Xi 160 1 0 12 Aug 2025
Lightweight Backbone Networks Only Require Adaptive Lightweight Self-Attention Mechanisms Fengyun Li Chao Zheng Yangyang Fang Jialiang Lan Jianhua Liang Luhao Zhang Fa Si 124 0 0 02 Aug 2025
Foundation Models and Transformers for Anomaly Detection: A SurveyInformation Fusion (Inf. Fusion), 2025 Mouin Ben Ammar Arturo Mendoza Nacim Belkhir Antoine Manzanera Gianni Franchi 136 4 0 21 Jul 2025
DeepTraverse: A Depth-First Search Inspired Network for Algorithmic Visual Understanding Bin Guo John H.L. Hansen 178 0 0 11 Jun 2025
RoadFormer : Local-Global Feature Fusion for Road Surface Classification in Autonomous Driving Tianze Wang Zhang Zhang Chao Sun 144 1 0 03 Jun 2025
Sketch Down the FLOPs: Towards Efficient Networks for Human SketchComputer Vision and Pattern Recognition (CVPR), 2025 Aneeshan Sain Subhajit Maity Pinaki Nath Chowdhury Subhadeep Koley A. Bhunia Yi-Zhe Song 3DH 216 0 0 29 May 2025
S2AFormer: Strip Self-Attention for Efficient Vision Transformer Guoan Xu Wenfeng Huang Wenjing Jia Jiamao Li Guangwei Gao Guo-Jun Qi 187 0 0 28 May 2025
HTMNet: A Hybrid Network with Transformer-Mamba Bottleneck Multimodal Fusion for Transparent and Reflective Objects Depth Completion Guanghu Xie Yonglong Zhang Zhiduo Jiang Yang Liu Zongwu Xie Baoshi Cao Hong Liu Mamba 252 1 0 27 May 2025
Image Recognition with Online Lightweight Vision Transformer: A Survey Zherui Zhang Rongtao Xu Jie Zhou Changwei Wang Xingtian Pei ... Jiguang Zhang Li Guo Longxiang Gao Wenyuan Xu Shibiao Xu ViT 1.0K 2 0 06 May 2025
Exploring Synergistic Ensemble Learning: Uniting CNNs, MLP-Mixers, and Vision Transformers to Enhance Image Classification Mk Bashar Ocean Monjur Samia Islam Mohammad Galib Shams Niamul Quader UQCV 185 1 0 12 Apr 2025
EffOWT: Transfer Visual Language Models to Open-World Tracking Efficiently and Effectively Bingyang Wang Kaer Huang Bin Li Yiqiang Yan Lulu Zhang Huchuan Lu You He VLM 353 0 0 07 Apr 2025
LSNet: See Large, Focus SmallComputer Vision and Pattern Recognition (CVPR), 2025 Ao Wang Hui Chen Zijia Lin Jiawei Han Guiguang Ding 215 8 0 29 Mar 2025
Attentional Triple-Encoder Network in Spatiospectral Domains for Medical Image SegmentationConference on Algebraic Informatics (AI), 2025 Kristin Qi Xinhan Di MedIm 146 0 0 20 Mar 2025
MobilePlantViT: A Mobile-friendly Hybrid ViT for Generalized Plant Disease Image Classification Moshiur Rahman Tonmoy Md. Mithun Hossain Nilanjan Dey M. F. Mridha 231 9 0 20 Mar 2025
RETHINED: A New Benchmark and Baseline for Real-Time High-Resolution Image Inpainting On Edge DevicesIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2025 Marcelo Sanchez G. Triginer Ignacio Sarasua Lara Raad C. Ballester 203 0 0 18 Mar 2025
SSVQ: Unleashing the Potential of Vector Quantization with Sign-Splitting Shuaiting Li Juncan Deng Chenxuan Wang Kedong Xu Rongtao Deng Hong Gu Haibin Shen Kejie Huang MQ 233 1 0 11 Mar 2025
Similarity-Guided Layer-Adaptive Vision Transformer for UAV TrackingComputer Vision and Pattern Recognition (CVPR), 2025 Chaocan Xue Bineng Zhong Qihua Liang Yaozong Zheng Ning Li Yuanliang Xue Shuxiang Song 174 24 0 09 Mar 2025
Thicker and Quicker: A Jumbo Token for Fast Plain Vision Transformers A. Fuller Yousef Yassin Daniel G. Kyrollos Evan Shelhamer James R. Green 379 1 0 20 Feb 2025
iFormer: Integrating ConvNet and Transformer for Mobile ApplicationInternational Conference on Learning Representations (ICLR), 2025 Chuanyang Zheng ViT 316 2 0 26 Jan 2025
RecConv: Efficient Recursive Convolutions for Multi-Frequency Representations Mingshu Zhao Yi Luo Yong Ouyang 268 0 0 27 Dec 2024
Unity is Strength: Unifying Convolutional and Transformeral Features for Better Person Re-Identification Yuhao Wang Pingping Zhang Xuehu Liu Zhengzheng Tu Huchuan Lu 213 7 0 23 Dec 2024
Light-T2M: A Lightweight and Fast Model for Text-to-motion GenerationAAAI Conference on Artificial Intelligence (AAAI), 2024 Ling-an Zeng Guohong Huang Gaojie Wu Wei-Shi Zheng 263 10 0 15 Dec 2024
RapidNet: Multi-Level Dilated Convolution Based Mobile BackboneIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024 Mustafa Munir Md Mostafijur Rahman R. Marculescu MedIm ViT 266 4 0 14 Dec 2024
CubeFormer: A Simple yet Effective Baseline for Lightweight Image Super-Resolution Jikai Wang Huan Zheng Jianbing Shen SupR 254 0 0 03 Dec 2024
MobileMamba: Lightweight Multi-Receptive Visual Mamba NetworkComputer Vision and Pattern Recognition (CVPR), 2024 Haoyang He Jing Zhang Yuxuan Cai Hongxu Chen Xiaobin Hu Zhenye Gan Yun Wang Chengjie Wang Yunsheng Wu Lei Xie Mamba 372 26 0 24 Nov 2024
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space DualityComputer Vision and Pattern Recognition (CVPR), 2024 Sanghyeok Lee Joonmyung Choi Hyunwoo J. Kim 369 18 0 22 Nov 2024
SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers Shravan Venkatraman Jaskaran Singh Walia J. Raheja ViT 435 2 0 14 Nov 2024
PETAH: Parameter Efficient Task Adaptation for Hybrid Transformers in a resource-limited Context Maximilian Augustin Syed Shakib Sarwar Mostafa Elhoushi Sai Qian Zhang Yuecheng Li B. D. Salvo 181 1 0 23 Oct 2024
Neural Fourier Modelling: A Highly Compact Approach to Time-Series Analysis Minjung Kim Yusuke Hioka Michael Witbrock AI4TS 251 3 0 07 Oct 2024
ALSS-YOLO: An Adaptive Lightweight Channel Split and Shuffling Network for TIR Wildlife Detection in UAV ImageryIEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing (IEEE JSTARS), 2024 Ang He Xiaobo Li Ximei Wu Chengyue Su Jing Chen Sheng Xu Xiaobin Guo 170 21 0 10 Sep 2024
LowFormer: Hardware Efficient Design for Convolutional Transformer BackbonesIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024 Moritz Nottebaum Matteo Dunnhofer C. Micheloni ViT 246 1 0 05 Sep 2024
SCAN-Edge: Finding MobileNet-speed Hybrid Networks for Diverse Edge Devices via Hardware-Aware Evolutionary Search Hung-Yueh Chiang Diana Marculescu 171 0 0 27 Aug 2024
AVESFormer: Efficient Transformer Design for Real-Time Audio-Visual Segmentation Zili Wang Qi Yang Linsu Shi Jiazhong Yu M. Tanveer Fei Li Shiming Xiang VOS 170 3 0 03 Aug 2024
Twins-PainViT: Towards a Modality-Agnostic Vision Transformer Framework for Multimodal Automatic Pain Assessment using Facial Videos and fNIRS Stefanos Gkikas Manolis Tsiknakis MedIm 157 12 0 29 Jul 2024
Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets Tianxiao Zhang Wenju Xu Bo Luo Guanghui Wang ViT MDE 372 33 0 28 Jul 2024
Embedding-Free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation Hyunwoo Yu Yubin Cho Beoungwoo Kang Seunghun Moon Kyeongbo Kong Suk-Ju Kang 180 11 0 24 Jul 2024
Double-Shot 3D Shape Measurement with a Dual-Branch Network Mingyang Lei Jingfan Fan Long Shao Hong Song Deqiang Xiao Danni Ai Tianyu Fu Ying Gu Jian Yang 3DPC 3DV 142 4 0 19 Jul 2024
MaskVD: Region Masking for Efficient Video Object Detection Sreetama Sarkar Gourav Datta Souvik Kundu Kai Zheng Chirayata Bhattacharyya Peter A. Beerel 215 7 0 16 Jul 2024
Early Explorations of Lightweight Models for Wound Segmentation on Mobile Devices Vanessa Borst Timo Dittus Konstantin Müller Samuel Kounev 252 4 0 10 Jul 2024
HDKD: Hybrid Data-Efficient Knowledge Distillation Network for Medical Image Classification Omar S. El-Assiouti Ghada Hamed Dina Khattab H. M. Ebied 237 14 0 10 Jul 2024
CTRL-F: Pairing Convolution with Transformer for Image Classification via Multi-Level Feature Cross-Attention and Representation Learning Fusion Hosam S. El-Assiouti Hadeer El-Saadawy M. Al-Berry M. Tolba ViT 192 0 0 09 Jul 2024
FedEx: Expediting Federated Learning over Heterogeneous Mobile Devices by Overlapping and Participant Selection Jiaxiang Geng Boyu Li Xiaoqi Qin Yixuan Li Liang Li Yanzhao Hou Miao Pan FedML 345 0 0 01 Jul 2024