When Compression Meets Model Compression: Memory-Efficient Double Compression for Large Language Models

24 February 2025

Papers citing "When Compression Meets Model Compression: Memory-Efficient Double Compression for Large Language Models"

1 / 1 papers shown

Title
FlexInfer: Breaking Memory Constraint via Flexible and Efficient Offloading for On-Device LLM Inference Hongchao Du Shangyu Wu Arina Kharlamova Nan Guan Chun Jason Xue 49 1 0 04 Mar 2025