Title
FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving Zihao Ye Lequn Chen Ruihang Lai Wuwei Lin Yineng Zhang ... Tianqi Chen Baris Kasikci Vinod Grover Arvind Krishnamurthy Luis Ceze 48 19 0 02 Jan 2025
Pruning Large Language Models to Intra-module Low-rank Architecture with Transitional Activations Bowen Shen Zheng-Shen Lin Daren Zha Wei Liu Jian Luan Bin Wang Weiping Wang 44 1 0 08 Jul 2024
GeoT: Tensor Centric Library for Graph Neural Network via Efficient Segment Reduction on GPU Zhongming Yu Genghan Zhang Hanxian Huang Xin Chen Jishen Zhao GNN 18 0 0 03 Apr 2024
Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems Xupeng Miao Gabriele Oliaro Zhihao Zhang Xinhao Cheng Hongyi Jin Tianqi Chen Zhihao Jia 27 75 0 23 Dec 2023
SparseTIR: Composable Abstractions for Sparse Compilation in Deep Learning Zihao Ye Ruihang Lai Junru Shao Tianqi Chen Luis Ceze 76 61 0 11 Jul 2022