Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving

v1v2v3 (latest)

Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving

14 July 2025

Chang Hyun Park

ArXiv (abs)PDF HTML Github (11★)

Papers citing "Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving"

1 / 1 papers shown

Title
P3-LLM: An Integrated NPU-PIM Accelerator for LLM Inference Using Hybrid Numerical Formats Yuzong Chen Chao Fang Xilai Dai Yuheng Wu Thierry Tambe Marian Verhelst Mohamed S. Abdelfattah 51 0 0 10 Nov 2025