MELTing point: Mobile Evaluation of Language Transformers

MELTing point: Mobile Evaluation of Language Transformers

19 March 2024

Stefanos Laskaridis

Kleomenis Katevas

Hamed Haddadi

Papers citing "MELTing point: Mobile Evaluation of Language Transformers"

17 / 17 papers shown

Title
Benchmarking Ultra-Low-Power $μ$ NPUs Josh Millar Yushan Huang Sarab Sethi Hamed Haddadi Anil Madhavapeddy BDL 53 0 0 28 Mar 2025
Ten Challenging Problems in Federated Foundation Models Tao Fan Hanlin Gu Xuemei Cao Chee Seng Chan Qian Chen ... Y. Zhang Xiaojin Zhang Zhenzhe Zheng Lixin Fan Qiang Yang FedML 73 3 0 14 Feb 2025
PalmBench: A Comprehensive Benchmark of Compressed Large Language Models on Mobile Platforms Yilong Li Jingyu Liu Hao Zhang M Badri Narayanan Utkarsh Sharma Shuai Zhang Pan Hu Yijing Zeng Jayaram Raghuram Suman Banerjee MQ 33 2 0 10 Jan 2025
Lightweight Neural App Control Filippos Christianos Georgios Papoudakis Thomas Coste Jianye Hao Jun Wang Kun Shao LM&Ro 44 4 0 23 Oct 2024
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT Omkar Thawakar Ashmal Vayani Salman Khan Hisham Cholakal Rao M. Anwer M. Felsberg Timothy Baldwin Eric P. Xing Fahad Shahbaz Khan 46 31 0 26 Feb 2024
A Survey of Resource-efficient LLM and Multimodal Foundation Models Mengwei Xu Wangsong Yin Dongqi Cai Rongjie Yi Daliang Xu ... Shangguang Wang Yuanchun Li Yunxin Liu Xin Jin Xuanzhe Liu VLM 67 70 0 16 Jan 2024
LLM in a flash: Efficient Large Language Model Inference with Limited Memory Keivan Alizadeh-Vahid Iman Mirzadeh Dmitry Belenko Karen Khatamifard Minsik Cho C. C. D. Mundo Mohammad Rastegari Mehrdad Farajtabar 70 104 0 12 Dec 2023
Maestro: Uncovering Low-Rank Structures via Trainable Decomposition Samuel Horváth Stefanos Laskaridis Shashank Rajput Hongyi Wang BDL 24 4 0 28 Aug 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 203 2,232 0 22 Mar 2023
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU Ying Sheng Lianmin Zheng Binhang Yuan Zhuohan Li Max Ryabinin ... Joseph E. Gonzalez Percy Liang Christopher Ré Ion Stoica Ce Zhang 144 365 0 13 Mar 2023
The Future of Consumer Edge-AI Computing Stefanos Laskaridis Stylianos I. Venieris Alexandros Kouris Rui Li Nicholas D. Lane 26 8 0 19 Oct 2022
Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural Networks on Edge NPUs Alexandros Kouris Stylianos I. Venieris Stefanos Laskaridis Nicholas D. Lane 30 8 0 27 Sep 2022
Transkimmer: Transformer Learns to Layer-wise Skim Yue Guan Zhengyi Li Jingwen Leng Zhouhan Lin Minyi Guo 54 38 0 15 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Smart at what cost? Characterising Mobile Deep Neural Networks in the wild Mario Almeida Stefanos Laskaridis Abhinav Mehrotra L. Dudziak Ilias Leontiadis Nicholas D. Lane HAI 93 44 0 28 Sep 2021
Carbon Emissions and Large Neural Network Training David A. Patterson Joseph E. Gonzalez Quoc V. Le Chen Liang Lluís-Miquel Munguía D. Rothchild David R. So Maud Texier J. Dean AI4CE 239 626 0 21 Apr 2021
Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT Sheng Shen Zhen Dong Jiayu Ye Linjian Ma Z. Yao A. Gholami Michael W. Mahoney Kurt Keutzer MQ 217 571 0 12 Sep 2019