FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization

24 March 2023

Pavan Kumar Anasosalu Vasu

Papers citing "FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization"

44 / 94 papers shown

Title
SFFNet: A Wavelet-Based Spatial and Frequency Domain Fusion Network for Remote Sensing Segmentation Yunsong Yang Genji Yuan Jinjiang Li VOS 16 12 0 03 May 2024
Understanding and Improving CNNs with Complex Structure Tensor: A Biometrics Study Kevin Hernandez Diaz J. Bigün F. Alonso-Fernandez 19 0 0 24 Apr 2024
An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training Jin Gao Shubo Lin Shaoru Wang Yutong Kou Zeming Li Liang Li Congxuan Zhang Xiaoqin Zhang Yizheng Wang Weiming Hu 37 1 0 18 Apr 2024
MobileNetV4 - Universal Models for the Mobile Ecosystem Danfeng Qin Chas Leichner M. Delakis Marco Fornoni Shixin Luo ... Berkin Akin Vaibhav Aggarwal Tenghui Zhu Daniele Moro Andrew G. Howard MQ 16 83 0 16 Apr 2024
HSViT: Horizontally Scalable Vision Transformer Chenhao Xu Chang-Tsun Li Chee Peng Lim Douglas Creighton ViT 17 1 0 08 Apr 2024
Talaria: Interactively Optimizing Machine Learning Models for Efficient Inference Fred Hohman Chaoqun Wang Jinmook Lee Jochen Görtler Dominik Moritz Jeffrey P. Bigham Zhile Ren Cecile Foret Qi Shan Xiaoyi Zhang 19 7 0 03 Apr 2024
MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection Ali Behrouz Michele Santacatterina Ramin Zabih 37 32 0 29 Mar 2024
Enhancing Efficiency in Vision Transformer Networks: Design Techniques and Insights Moein Heidari Reza Azad Sina Ghorbani Kolahi René Arimond Leon Niggemeier ... Afshin Bozorgpour Ehsan Khodapanah Aghdam A. Kazerouni I. Hacihaliloglu Dorit Merhof 36 7 0 28 Mar 2024
WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar Runwei Guan Liye Jia Fengyufan Yang Shanliang Yao Erick Purwanto ... Eng Gee Lim Jeremy S. Smith Ka Lok Man Xuming Hu Yutao Yue 29 8 0 19 Mar 2024
A Simple Baseline for Efficient Hand Mesh Reconstruction Zhishan Zhou Shihao Zhou Zhi Lv Minqiang Zou Yao Tang Jiajun Liang 3DH 17 13 0 04 Mar 2024
A Single Graph Convolution Is All You Need: Efficient Grayscale Image Classification Jacob Fein-Ashley S. Wickramasinghe Bingyi Zhang Rajgopal Kannan Viktor Prasanna 10 4 0 01 Feb 2024
SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design Seokju Yun Youngmin Ro ViT 19 29 0 29 Jan 2024
NeuroFlow: Development of lightweight and efficient model integration scheduling strategy for autonomous driving system Eunbin Seo Gwanjun Shin Eunho Lee 11 0 0 15 Dec 2023
Achelous++: Power-Oriented Water-Surface Panoptic Perception Framework on Edge Devices based on Vision-Radar Fusion and Pruning of Heterogeneous Modalities Runwei Guan Haocheng Zhao Shanliang Yao Ka Lok Man Xiaohui Zhu ... Yong Yue Jeremy S. Smith Eng Gee Lim Weiping Ding Yutao Yue 10 4 0 14 Dec 2023
Knowledge Transfer from Vision Foundation Models for Efficient Training of Small Task-specific Models Raviteja Vemulapalli Hadi Pouransari Fartash Faghri Sachin Mehta Mehrdad Farajtabar Mohammad Rastegari Oncel Tuzel 25 7 0 30 Nov 2023
MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training Pavan Kumar Anasosalu Vasu Hadi Pouransari Fartash Faghri Raviteja Vemulapalli Oncel Tuzel CLIP VLM 11 15 0 28 Nov 2023
UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition Xiaohan Ding Yiyuan Zhang Yixiao Ge Sijie Zhao Lin Song Xiangyu Yue Ying Shan VLM AI4TS SSL 21 98 0 27 Nov 2023
FMViT: A multiple-frequency mixing Vision Transformer Wei Tan Yifeng Geng Xuansong Xie ViT 8 2 0 09 Nov 2023
SBCFormer: Lightweight Network Capable of Full-size ImageNet Classification at 1 FPS on Single Board Computers Xiangyong Lu Masanori Suganuma Takayuki Okatani 20 9 0 07 Nov 2023
Model Compression in Practice: Lessons Learned from Practitioners Creating On-device Machine Learning Experiences Fred Hohman Mary Beth Kery Donghao Ren Dominik Moritz 13 6 0 06 Oct 2023
A simple connection from loss flatness to compressed neural representations Shirui Chen Stefano Recanatesi E. Shea-Brown 11 0 0 03 Oct 2023
Towards Few-Call Model Stealing via Active Self-Paced Knowledge Distillation and Diffusion-Based Image Generation Vlad Hondru Radu Tudor Ionescu DiffM 27 0 0 29 Sep 2023
Audio classification with Dilated Convolution with Learnable Spacings Ismail Khalfaoui-Hassani T. Masquelier Thomas Pellegrini 12 1 0 25 Sep 2023
TurboViT: Generating Fast Vision Transformers via Generative Architecture Search Alexander Wong Saad Abbasi Saeejith Nair ViT 11 1 0 22 Aug 2023
Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers Tobias Christian Nauen Sebastián M. Palacio Federico Raue Andreas Dengel 29 3 0 18 Aug 2023
Image Outlier Detection Without Training using RANSAC Chen-Han Tsai Yu-Shao Peng 13 0 0 23 Jul 2023
RepViT: Revisiting Mobile CNN From ViT Perspective Ao Wang Hui Chen Zijia Lin Hengjun Pu Guiguang Ding 19 169 0 18 Jul 2023
DiffHand: End-to-End Hand Mesh Reconstruction via Diffusion Models Lijun Li Lian Zhuo Bangze Zhang Liefeng Bo Chen Chen 27 2 0 23 May 2023
Efficient Large-Scale Visual Representation Learning And Evaluation Eden Dolev A. Awad Denisa Roberts Zahra Ebrahimzadeh Marcin Mejran Vaibhav Malpani Mahir Yavuz 21 0 0 22 May 2023
The Power of Linear Combinations: Learning with Random Convolutions Paul Gavrikov J. Keuper 19 2 0 26 Jan 2023
Self-Supervised Masked Convolutional Transformer Block for Anomaly Detection Neelu Madan Nicolae-Cătălin Ristea Radu Tudor Ionescu Kamal Nasrollahi F. Khan T. Moeslund M. Shah ViT MedIm 241 38 0 25 Sep 2022
Patches Are All You Need? Asher Trockman J. Zico Kolter ViT 212 395 0 24 Jan 2022
MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image Xingyu Chen Yufeng Liu Yajiao Dong Xiong Zhang Chongyang Ma Yanmin Xiong Yuan Zhang Xiaoyan Guo 3DH 48 82 0 06 Dec 2021
Pruning Self-attentions into Convolutional Layers in Single Path Haoyu He Jianfei Cai Jing Liu Zizheng Pan Jing Zhang Dacheng Tao Bohan Zhuang ViT 21 40 0 23 Nov 2021
Token Pooling in Vision Transformers D. Marin Jen-Hao Rick Chang Anurag Ranjan Anish K. Prabhu Mohammad Rastegari Oncel Tuzel ViT 65 65 0 08 Oct 2021
ResNet strikes back: An improved training procedure in timm Ross Wightman Hugo Touvron Hervé Jégou AI4TS 198 477 0 01 Oct 2021
CMT: Convolutional Neural Networks Meet Vision Transformers Jianyuan Guo Kai Han Han Wu Yehui Tang Chunjing Xu Yunhe Wang Chang Xu ViT 325 500 0 13 Jul 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 263 3,538 0 24 Feb 2021
High-Performance Large-Scale Image Recognition Without Normalization Andrew Brock Soham De Samuel L. Smith Karen Simonyan VLM 220 450 0 11 Feb 2021
RepVGG: Making VGG-style ConvNets Great Again Xiaohan Ding X. Zhang Ningning Ma Jungong Han Guiguang Ding Jian-jun Sun 117 1,484 0 11 Jan 2021
FreiHAND: A Dataset for Markerless Capture of Hand Pose and Shape from Single RGB Images Christiane Zimmermann Duygu Ceylan Jimei Yang Bryan C. Russell Max Argus Thomas Brox 3DH 189 394 0 10 Sep 2019
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications Andrew G. Howard Menglong Zhu Bo Chen Dmitry Kalenichenko Weijun Wang Tobias Weyand M. Andreetto Hartwig Adam 3DH 948 20,214 0 17 Apr 2017
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 261 10,106 0 16 Nov 2016
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 279 39,083 0 01 Sep 2014