Pruning Large Language Models to Intra-module Low-rank Architecture with Transitional Activations

8 July 2024

Bin Wang

Weiping Wang

Papers citing "Pruning Large Language Models to Intra-module Low-rank Architecture with Transitional Activations"

3 / 3 papers shown

Title
PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs Max Zimmer Megi Andoni Christoph Spiegel S. Pokutta VLM 48 10 0 23 Dec 2023
PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU Yixin Song Zeyu Mi Haotong Xie Haibo Chen BDL 112 114 0 16 Dec 2023
Relax: Composable Abstractions for End-to-End Dynamic Machine Learning Ruihang Lai Junru Shao Siyuan Feng Steven Lyubomirsky Bohan Hou ... Sunghyun Park Prakalp Srivastava Jared Roesch T. Mowry Tianqi Chen 40 7 0 01 Nov 2023