EdgeShard: Efficient LLM Inference via Collaborative Edge Computing

EdgeShard: Efficient LLM Inference via Collaborative Edge Computing

23 May 2024

Papers citing "EdgeShard: Efficient LLM Inference via Collaborative Edge Computing"

8 / 8 papers shown

Title
Large Language Model Partitioning for Low-Latency Inference at the Edge Dimitrios Kafetzis Ramin Khalili Iordanis Koutsopoulos 19 0 0 05 May 2025
UserCentrix: An Agentic Memory-augmented AI Framework for Smart Spaces Alaa Saleh Sasu Tarkoma Praveen Kumar Donta Naser Hossein Motlagh Schahram Dustdar Susanna Pirttikangas Lauri Lovén 41 0 0 01 May 2025
PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing Cheng Deng Luoyang Sun Jiwen Jiang Yongcheng Zeng Xinjian Wu ... Haoyang Li Lei Chen Lionel M. Ni H. Zhang Jun Wang 74 0 0 15 Mar 2025
Prompt Inversion Attack against Collaborative Inference of Large Language Models Wenjie Qu Yuguang Zhou Yongji Wu Tingsong Xiao Binhang Yuan Y. Li Jiaheng Zhang 66 0 0 12 Mar 2025
Towards Edge General Intelligence via Large Language Models: Opportunities and Challenges Handi Chen Weipeng Deng Shuo Yang J. Xu Zhihan Jiang Edith Ngai Jiangchuan Liu Xue Liu ELM 19 1 0 16 Oct 2024
Adaptive Layer Splitting for Wireless LLM Inference in Edge Computing: A Model-Based Reinforcement Learning Approach Yuxuan Chen Rongpeng Li Xiaoxue Yu Zhifeng Zhao Honggang Zhang 29 8 0 03 Jun 2024
EdgeQAT: Entropy and Distribution Guided Quantization-Aware Training for the Acceleration of Lightweight LLMs on the Edge Xuan Shen Zhenglun Kong Changdi Yang Zhaoyang Han Lei Lu ... Zhihao Shu Wei Niu Miriam Leeser Pu Zhao Yanzhi Wang MQ 46 17 0 16 Feb 2024
Agile-Quant: Activation-Guided Quantization for Faster Inference of LLMs on the Edge Xuan Shen Peiyan Dong Lei Lu Zhenglun Kong Zhengang Li Ming Lin Chao Wu Yanzhi Wang MQ 31 22 0 09 Dec 2023