v1v2 (latest)

AlpaServe: Statistical Multiplexing with Model Parallelism for Deep Learning Serving

22 February 2023

Zhuohan Li

Lianmin Zheng

Yinmin Zhong

Vincent Liu

Ying Sheng

Xin Jin

Yanping Huang

Zhifeng Chen

Hao Zhang

Joseph E. Gonzalez

Ion Stoica

MoE

ArXiv (abs)PDF HTML

Papers citing "AlpaServe: Statistical Multiplexing with Model Parallelism for Deep Learning Serving"

14 / 64 papers shown

Learned Best-Effort LLM Serving

Siddharth Jha

Coleman Hooper

Xiaoxuan Liu

Sehoon Kim

Kurt Keutzer

106

15 Jan 2024

OTAS: An Elastic Transformer Serving System via Token AdaptationIEEE Conference on Computer Communications (INFOCOM), 2024

194

10 Jan 2024

Infinite-LLM: Efficient LLM Service for Long Context with DistAttention and Distributed KVCache

...

Yong Li

302

05 Jan 2024

Training and Serving System of Foundation Models: A Comprehensive Survey

223

05 Jan 2024

Fairness in Serving Large Language ModelsUSENIX Symposium on Operating Systems Design and Implementation (OSDI), 2023

326

31 Dec 2023

SuperServe: Fine-Grained Inference Serving for Unpredictable Workloads

165

27 Dec 2023

DEAP: Design Space Exploration for DNN Accelerator Parallelism

Ekansh Agrawal

Xiangyu Sam Xu

188

24 Dec 2023

Splitwise: Efficient generative LLM inference using phase splittingInternational Symposium on Computer Architecture (ISCA), 2023

Íñigo Goiri

269

447

30 Nov 2023

SpotServe: Serving Generative Large Language Models on Preemptible InstancesInternational Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS), 2023

Dahua Lin

238

105

27 Nov 2023

HexGen: Generative Inference of Large Language Model over Heterogeneous Environment

Youhe Jiang

Ran Yan

Xiaozhe Yao

Yang Zhou

Beidi Chen

Binhang Yuan

SyDa

224

20 Nov 2023

Efficient Memory Management for Large Language Model Serving with PagedAttentionSymposium on Operating Systems Principles (SOSP), 2023

1.6K

4,229

12 Sep 2023

Resource Management for GPT-based Model Deployed on Clouds: Challenges, Solutions, and Future DirectionsInternational Conference on Algorithms and Architectures for Parallel Processing (ICA3PP), 2023

Yongkang Dang

Minxian Xu

Kejiang Ye

102

05 Aug 2023

Computron: Serving Distributed Deep Learning Models with Model Parallel Swapping

198

24 Jun 2023

Fast Distributed Inference Serving for Large Language Models

Xin Jin

220

143

10 May 2023