BlendServe: Optimizing Offline Inference for Auto-regressive Large Models with Resource-aware Batching

25 November 2024

Papers citing "BlendServe: Optimizing Offline Inference for Auto-regressive Large Models with Resource-aware Batching"

1 / 1 papers shown

Title
HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location Ting Sun Penghan Wang Fan Lai 36 1 0 15 Jan 2025