LiquidGEMM: Hardware-Efficient W4A8 GEMM Kernel for High-Performance LLM Serving

LiquidGEMM: Hardware-Efficient W4A8 GEMM Kernel for High-Performance LLM Serving

1 September 2025

Chengquan Jiang

ArXiv (abs)PDF HTML Github (748★)

Papers citing "LiquidGEMM: Hardware-Efficient W4A8 GEMM Kernel for High-Performance LLM Serving"

2 / 2 papers shown

Title
CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization Zijian Zhang Rong Wang Shiyang Li Yuebo Luo Mingyi Hong Caiwen Ding 124 0 0 23 Oct 2025
PreScope: Unleashing the Power of Prefetching for Resource-Constrained MoE Inference Enda Yu Zhaoning Zhang Dezun Dong Yongwei Wu Xiangke Liao 144 1 0 28 Sep 2025