Inference Performance Optimization for Large Language Models on CPUs

10 July 2024

Papers citing "Inference Performance Optimization for Large Language Models on CPUs"

2 / 2 papers shown

Title
A dynamic parallel method for performance optimization on hybrid CPUs Luo Yu Liu Yucheng Shen Haihao 51 0 0 29 Nov 2024
Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective Jinhao Li Jiaming Xu Shan Huang Yonghua Chen Wen Li ... Jiayi Pan Li Ding Hao Zhou Yu Wang Guohao Dai 57 15 0 06 Oct 2024