Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design

20 September 2022

Hongxiang Fan

Thomas C. P. Chau

Stylianos I. Venieris

Royson Lee

Alexandros Kouris

Wayne Luk

Nicholas D. Lane

Mohamed S. Abdelfattah

ArXiv PDF HTML

Papers citing "Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design"

24 / 24 papers shown

Title
LightMamba: Efficient Mamba Acceleration on FPGA with Quantization and Hardware Co-design Renjie Wei Songqiang Xu Linfeng Zhong Zebin Yang Qingyu Guo Y. Wang Runsheng Wang Meng Li 79 0 0 24 Feb 2025
Duplex: A Device for Large Language Models with Mixture of Experts, Grouped Query Attention, and Continuous Batching Sungmin Yun Kwanhee Kyung Juhwan Cho Jaewan Choi Jongmin Kim Byeongho Kim Sukhan Lee Kyomin Sohn Jung Ho Ahn MoE 36 5 0 02 Sep 2024
HG-PIPE: Vision Transformer Acceleration with Hybrid-Grained Pipeline Qingyu Guo Jiayong Wan Songqiang Xu Meng Li Yuan Wang 24 1 0 25 Jul 2024
Co-Designing Binarized Transformer and Hardware Accelerator for Efficient End-to-End Edge Deployment Yuhao Ji Chao Fang Shaobo Ma Haikuo Shao Zhongfeng Wang MQ 31 1 0 16 Jul 2024
Accelerating MRI Uncertainty Estimation with Mask-based Bayesian Neural Network Zehuan Zhang Matej Genci Hongxiang Fan A. Wetscherek Wayne Luk 26 0 0 07 Jul 2024
Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA Hao Chen Liam Castelli Martin Ferianc Hongyu Zhou Shuanglong Liu Wayne Luk Hongxiang Fan 23 0 0 20 Jun 2024
SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs Zhenyu Bai Pranav Dangi Huize Li Tulika Mitra 26 5 0 27 May 2024
A Survey on Efficient Inference for Large Language Models Zixuan Zhou Xuefei Ning Ke Hong Tianyu Fu Jiaming Xu ... Shengen Yan Guohao Dai Xiao-Ping Zhang Yuhan Dong Yu-Xiang Wang 46 80 0 22 Apr 2024
MELTing point: Mobile Evaluation of Language Transformers Stefanos Laskaridis Kleomenis Katevas Lorenzo Minto Hamed Haddadi 27 20 0 19 Mar 2024
FlightLLM: Efficient Large Language Model Inference with a Complete Mapping Flow on FPGAs Shulin Zeng Jun Liu Guohao Dai Xinhao Yang Tianyu Fu ... Zehao Wang Ruoyu Zhang Kairui Wen Xuefei Ning Yu Wang 54 55 0 08 Jan 2024
Dimension Mixer: A Generalized Method for Structured Sparsity in Deep Neural Networks Suman Sapkota Binod Bhattarai 29 0 0 30 Nov 2023
Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse Multi-DNN Workloads Hongxiang Fan Stylianos I. Venieris Alexandros Kouris Nicholas D. Lane 13 7 0 17 Oct 2023
Efficient N:M Sparse DNN Training Using Algorithm, Architecture, and Dataflow Co-Design Chao Fang Wei Sun Aojun Zhou Zhongfeng Wang 11 3 0 22 Sep 2023
When Monte-Carlo Dropout Meets Multi-Exit: Optimizing Bayesian Neural Networks on FPGA Hongxiang Fan Hao Chen Liam Castelli Zhiqiang Que He Li Kenneth Long Wayne Luk BDL 6 2 0 13 Aug 2023
A Survey of Techniques for Optimizing Transformer Inference Krishna Teja Chitty-Venkata Sparsh Mittal M. Emani V. Vishwanath Arun Somani 29 62 0 16 Jul 2023
ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer Haoran You Huihong Shi Yipin Guo Yingyan Lin Lin 26 16 0 10 Jun 2023
PQA: Exploring the Potential of Product Quantization in DNN Hardware Acceleration Ahmed F. AbouElhamayed Angela Cui Javier Fernandez-Marques Nicholas D. Lane Mohamed S. Abdelfattah MQ 16 4 0 25 May 2023
On Efficient Training of Large-Scale Deep Learning Models: A Literature Review Li Shen Yan Sun Zhiyuan Yu Liang Ding Xinmei Tian Dacheng Tao VLM 24 39 0 07 Apr 2023
Full Stack Optimization of Transformer Inference: a Survey Sehoon Kim Coleman Hooper Thanakul Wattanawong Minwoo Kang Ruohan Yan ... Qijing Huang Kurt Keutzer Michael W. Mahoney Y. Shao A. Gholami MQ 26 100 0 27 Feb 2023
The Future of Consumer Edge-AI Computing Stefanos Laskaridis Stylianos I. Venieris Alexandros Kouris Rui Li Nicholas D. Lane 37 8 0 19 Oct 2022
Energon: Towards Efficient Acceleration of Transformers Using Dynamic Sparse Attention Zhe Zhou Junling Liu Zhenyu Gu Guangyu Sun 56 42 0 18 Oct 2021
MLP-Mixer: An all-MLP Architecture for Vision Ilya O. Tolstikhin N. Houlsby Alexander Kolesnikov Lucas Beyer Xiaohua Zhai ... Andreas Steiner Daniel Keysers Jakob Uszkoreit Mario Lucic Alexey Dosovitskiy 239 2,592 0 04 May 2021
Big Bird: Transformers for Longer Sequences Manzil Zaheer Guru Guruganesh Kumar Avinava Dubey Joshua Ainslie Chris Alberti ... Philip Pham Anirudh Ravula Qifan Wang Li Yang Amr Ahmed VLM 251 2,009 0 28 Jul 2020
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,943 0 20 Apr 2018