Chameleon: Adaptive Caching and Scheduling for Many-Adapter LLM Inference Environments

24 November 2024

Papers citing "Chameleon: Adaptive Caching and Scheduling for Many-Adapter LLM Inference Environments"

1 / 1 papers shown

Title
FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning Xupeng Miao Gabriele Oliaro Xinhao Cheng Vineeth Kada Ruohan Gao ... April Yang Yingcheng Wang Mengdi Wu Colin Unger Zhihao Jia MoE 85 8 0 29 Feb 2024