FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization

24 March 2023

Pavan Kumar Anasosalu Vasu

Papers citing "FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization"

50 / 94 papers shown

Title
SCFormer: Structured Channel-wise Transformer with Cumulative Historical State for Multivariate Time Series Forecasting Shiwei Guo Z. Chen Yupeng Ma Yunfei Han Yi Wang AI4TS 41 0 0 05 May 2025
Learning to Drive from a World Model Mitchell Goff Greg Hogan George Hotz Armand du Parc Locmaria Kacper Raczy Harald Schäfer Adeeb Shihadeh Weixing Zhang Yassine Yousfi 24 0 0 27 Apr 2025
EMF: Event Meta Formers for Event-based Real-time Traffic Object Detection Muhammad Ahmed Ullah Khan Abdul Hannan Khan Andreas Dengel 33 0 0 05 Apr 2025
LSNet: See Large, Focus Small Ao Wang Hui Chen Zijia Lin J. Han Guiguang Ding 34 0 0 29 Mar 2025
GmNet: Revisiting Gating Mechanisms From A Frequency View Yifan Wang Xu Ma Yitian Zhang Zhongruo Wang Sung-Cheol Kim Vahid Mirjalili Vidya Renganathan Y. Fu 31 0 0 28 Mar 2025
Beyond Accuracy: What Matters in Designing Well-Behaved Models? Robin Hesse Doğukan Bağcı Bernt Schiele Simone Schaub-Meyer Stefan Roth VLM 54 0 0 21 Mar 2025
RETHINED: A New Benchmark and Baseline for Real-Time High-Resolution Image Inpainting On Edge Devices Marcelo Sanchez G. Triginer Ignacio Sarasua Lara Raad C. Ballester 63 0 0 18 Mar 2025
Fraesormer: Learning Adaptive Sparse Transformer for Efficient Food Recognition Shun Zou Yi Zou Mingya Zhang Shipeng Luo Zhihao Chen Guangwei Gao ViT 38 0 0 15 Mar 2025
Context-guided Responsible Data Augmentation with Diffusion Models Khawar Islam Naveed Akhtar 40 1 0 12 Mar 2025
SSVQ: Unleashing the Potential of Vector Quantization with Sign-Splitting Shuaiting Li Juncan Deng Chenxuan Wang Kedong Xu Rongtao Deng Hong Gu Haibin Shen Kejie Huang MQ 48 0 0 11 Mar 2025
ReJSHand: Efficient Real-Time Hand Pose Estimation and Mesh Reconstruction Using Refined Joint and Skeleton Features Shan An Shipeng Dai Mahrukh Ansari Yu Liang Ming Zeng Konstantinos A. Tsintotas Changhong Fu H. Zhang 3DH 38 0 0 08 Mar 2025
Partial Convolution Meets Visual Attention Haiduo Huang Fuwei Yang D. Li Ji Liu Lu Tian Jinzhang Peng Pengju Ren E. Barsoum 3DH 85 0 0 05 Mar 2025
MaxGlaViT: A novel lightweight vision transformer-based approach for early diagnosis of glaucoma stages from fundus images Mustafa Yurdakul Kubra Uyar Şakir Taşdemir 45 1 0 24 Feb 2025
Simpler Fast Vision Transformers with a Jumbo CLS Token A. Fuller Yousef Yassin Daniel G. Kyrollos Evan Shelhamer James R. Green 67 0 0 24 Feb 2025
MicroViT: A Vision Transformer with Low Complexity Self Attention for Edge Device Novendra Setyawan Chi-Chia Sun Mao-Hsiu Hsu W. Kuo Jun-Wei Hsieh ViT 39 1 0 09 Feb 2025
iFormer: Integrating ConvNet and Transformer for Mobile Application Chuanyang Zheng ViT 65 0 0 26 Jan 2025
Rethinking Encoder-Decoder Flow Through Shared Structures Frederik Laboyrie M. K. Yucel Albert Saà-Garriga AI4CE 38 0 0 24 Jan 2025
RecConv: Efficient Recursive Convolutions for Multi-Frequency Representations Mingshu Zhao Yi Luo Yong Ouyang 26 0 0 27 Dec 2024
UNet--: Memory-Efficient and Feature-Enhanced Network Architecture based on U-Net with Reduced Skip-Connections Lingxiao Yin Wei Tao Dongyue Zhao Tadayuki Ito Kinya Osa Masami Kato Tse-Wei Chen 31 0 0 24 Dec 2024
RapidNet: Multi-Level Dilated Convolution Based Mobile Backbone Mustafa Munir Md Mostafijur Rahman R. Marculescu MedIm ViT 62 0 0 14 Dec 2024
Cascaded Multi-Scale Attention for Enhanced Multi-Scale Feature Extraction and Interaction with Low-Resolution Images Xiangyong Lu Masanori Suganuma Takayuki Okatani 62 0 0 03 Dec 2024
HandOS: 3D Hand Reconstruction in One Stage Xingyu Chen Zhuheng Song Xiaoke Jiang Yaoqing Hu Junzhi Yu Lei Zhang 3DH HAI 69 0 0 02 Dec 2024
TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba Xiaowen Ma Zhenliang Ni Xinghao Chen Mamba 70 2 0 26 Nov 2024
CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction Yuan Zhou Qingshan Xu Jiequan Cui Junbao Zhou Jing Zhang Richang Hong H. Zhang ViT 70 0 0 25 Nov 2024
MobileMamba: Lightweight Multi-Receptive Visual Mamba Network Haoyang He J. Zhang Yuxuan Cai Hongxu Chen Xiaobin Hu Zhenye Gan Y. Wang Chengjie Wang Yunsheng Wu Lei Xie Mamba 77 3 0 24 Nov 2024
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality Sanghyeok Lee Joonmyung Choi Hyunwoo J. Kim 98 3 0 22 Nov 2024
Multi-Level Feature Distillation of Joint Teachers Trained on Distinct Image Datasets Adrian Iordache B. Alexe Radu Tudor Ionescu 21 1 0 29 Oct 2024
PETAH: Parameter Efficient Task Adaptation for Hybrid Transformers in a resource-limited Context Maximilian Augustin Syed Shakib Sarwar Mostafa Elhoushi Sai Qian Zhang Yuecheng Li B. D. Salvo 15 0 0 23 Oct 2024
CTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction Chunlei Meng Jiacheng Yang Wei Lin Bowen Liu Hongda Zhang chun ouyang Zhongxue Gan ViT 20 1 0 15 Oct 2024
Cross-video Identity Correlating for Person Re-identification Pre-training Jialong Zuo Ying Nie Hanyu Zhou Huaxin Zhang Haoyu Wang Tianyu Guo Nong Sang Changxin Gao 20 0 0 27 Sep 2024
HydraViT: Stacking Heads for a Scalable ViT Janek Haberer A. Hojjat Olaf Landsiedel 19 0 0 26 Sep 2024
WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild Rolandos Alexandros Potamias Jinglei Zhang Jiankang Deng S. Zafeiriou 3DH 15 9 0 18 Sep 2024
MpoxMamba: A Grouped Mamba-based Lightweight Hybrid Network for Mpox Detection Yubiao Yue Jun Xue Haihuang Liang Zhenzhang Li Yufeng Wang Mamba 23 0 0 06 Sep 2024
LowFormer: Hardware Efficient Design for Convolutional Transformer Backbones Moritz Nottebaum Matteo Dunnhofer C. Micheloni ViT 21 1 0 05 Sep 2024
PRG: Prompt-Based Distillation Without Annotation via Proxy Relational Graph Yijin Xu Jialun Liu Hualiang Wei Wenhui Li 15 0 0 22 Aug 2024
Dilated Convolution with Learnable Spacings makes visual models more aligned with humans: a Grad-CAM study Rabih Chamas Ismail Khalfaoui-Hassani T. Masquelier 19 0 0 06 Aug 2024
NuLite -- Lightweight and Fast Model for Nuclei Instance Segmentation and Classification C. Tommasino Cristiano Russo A. M. Rinaldi 33 0 0 03 Aug 2024
PADRe: A Unifying Polynomial Attention Drop-in Replacement for Efficient Vision Transformer Pierre-David Létourneau Manish Kumar Singh Hsin-Pai Cheng Shizhong Han Yunxiao Shi Dalton Jones M. H. Langston Hong Cai Fatih Porikli 26 0 0 16 Jul 2024
Distributed Semantic Segmentation with Efficient Joint Source and Task Decoding Danish Nazir Timo Bartels Jan Piewek Thorsten Bagdonat Tim Fingscheidt 21 0 0 15 Jul 2024
Hamba: Single-view 3D Hand Reconstruction with Graph-guided Bi-Scanning Mamba Haoye Dong Aviral Chharia Wenbo Gou Francisco Vicente Carrasco Fernando De la Torre Mamba 38 1 0 12 Jul 2024
Lite-SAM Is Actually What You Need for Segment Everything Jianhai Fu Yuanjie Yu Ningchuan Li Yi Zhang Qichao Chen Jianping Xiong Jun Yin Zhiyu Xiang VLM 22 4 0 12 Jul 2024
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions Yu-Guan Hsieh Cheng-Yu Hsieh Shih-Ying Yeh Louis Béthune Hadi Pour Ansari Pavan Kumar Anasosalu Vasu Chun-Liang Li Ranjay Krishna Oncel Tuzel Marco Cuturi 58 4 0 09 Jul 2024
RepNeXt: A Fast Multi-Scale CNN using Structural Reparameterization Mingshu Zhao Yi Luo Yong Ouyang 24 2 0 23 Jun 2024
LeYOLO, New Scalable and Efficient CNN Architecture for Object Detection Lilian Hollard Lucas Mohimont N. Gaveau L. Steffenel ObjD 23 3 0 20 Jun 2024
ToSA: Token Selective Attention for Efficient Vision Transformers Manish Kumar Singh R. Yasarla Hong Cai Mingu Lee Fatih Porikli 39 0 0 13 Jun 2024
DiTFastAttn: Attention Compression for Diffusion Transformer Models Zhihang Yuan Pu Lu Hanling Zhang Xuefei Ning Linfeng Zhang Tianchen Zhao Shengen Yan Guohao Dai Yu Wang 36 20 0 12 Jun 2024
Scaling Graph Convolutions for Mobile Vision William Avery Mustafa Munir R. Marculescu GNN 27 4 0 09 Jun 2024
Navigating Efficiency in MobileViT through Gaussian Process on Global Architecture Factors Ke Meng Kai Chen 22 0 0 07 Jun 2024
CLIP with Quality Captions: A Strong Pretraining for Vision Tasks Pavan Kumar Anasosalu Vasu Hadi Pouransari Fartash Faghri Oncel Tuzel VLM CLIP 19 6 0 14 May 2024
GreedyViG: Dynamic Axial Graph Construction for Efficient Vision GNNs Mustafa Munir William Avery Md Mostafijur Rahman R. Marculescu GNN 45 11 0 10 May 2024