v1v2v3 (latest)

SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot

International Conference on Machine Learning (ICML), 2023

2 January 2023

Elias Frantar

Dan Alistarh

VLM

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)Github (799★)

Papers citing "SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot"

50 / 665 papers shown

FinerCut: Finer-grained Interpretable Layer Pruning for Large Language Models

Qianli Shen

249

28 May 2024

Exploring Activation Patterns of Parameters in Language Models

Yudong Wang

Damai Dai

Zhifang Sui

170

28 May 2024

CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs

206

27 May 2024

NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models

Mengyao Xu

729

393

27 May 2024

A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts

Mohammed Nowaz Rabbani Chowdhury

Christopher Carothers

MoE

409

26 May 2024

Subspace Node Pruning

Joshua Offergeld

Marcel van Gerven

Nasir Ahmad

360

26 May 2024

SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models

225

25 May 2024

Large Language Model Pruning

Hanjuan Huang

Hao-Jia Song

H. Pao

416

24 May 2024

Sparse maximal update parameterization: A holistic approach to sparse training dynamics

Nolan Dey

Shane Bergsma

Joel Hestness

257

24 May 2024

Distributed Speculative Inference (DSI): Speculation Parallelism for Provably Faster Lossless Language Model InferenceInternational Conference on Learning Representations (ICLR), 2024

259

23 May 2024

SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models

359

23 May 2024

Your Transformer is Secretly Linear

199

19 May 2024

Dynamic Activation Pitfalls in LLaMA Models: An Empirical Study

203

15 May 2024

Characterizing the Accuracy - Efficiency Trade-off of Low-rank Decomposition in Language Models

Chakshu Moar

Michael Pellauer

Hyoukjun Kwon

140

10 May 2024

Pruning as a Domain-specific LLM Extractor

177

10 May 2024

OpenBA-V2: Reaching 77.3% High Compression Ratio with Fast Multi-Stage Pruning

...

Min Zhang

223

09 May 2024

FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation

Mohit Bansal

237

08 May 2024

Collage: Light-Weight Low-Precision Strategy for LLM TrainingInternational Conference on Machine Learning (ICML), 2024

246

06 May 2024

Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment

Michael Goin

...

Dan Alistarh

269

06 May 2024

Dependency-Aware Semi-Structured Sparsity: Declining Roles of Outliers in Pruning GLU-based LLMs

Zhiyu Guo

Hidetaka Kamigaito

Taro Wanatnabe

132

03 May 2024

COPAL: Continual Pruning in Large Language Generative ModelsInternational Conference on Machine Learning (ICML), 2024

195

02 May 2024

Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity

Xiaoxuan Liu

336

22 Apr 2024

A Survey on Efficient Inference for Large Language Models

...

Shengen Yan

420

174

22 Apr 2024

MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts

...

371

108

22 Apr 2024

Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration

Dongyan Zhao

188

18 Apr 2024

Shears: Unstructured Sparsity with Neural Low-rank Adapter Search

J. P. Muñoz

Jinjie Yuan

Nilesh Jain

223

16 Apr 2024

SparseDM: Toward Sparse Efficient Diffusion Models

Jianfei Chen

387

16 Apr 2024

Language Model Cascades: Token-level uncertainty and beyond

Neha Gupta

Harikrishna Narasimhan

Sanjiv Kumar

464

15 Apr 2024

LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models

Guangyan Li

Yongqiang Tang

Wensheng Zhang

247

15 Apr 2024

CATS: Contextually-Aware Thresholding for Sparsity in Large Language Models

275

12 Apr 2024

CQIL: Inference Latency Optimization with Concurrent Computation of Quasi-Independent LayersAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

248

10 Apr 2024

MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning

278

08 Apr 2024

Lightweight Deep Learning for Resource-Constrained Environments: A Survey

366

154

08 Apr 2024

DLoRA: Distributed Parameter-Efficient Fine-Tuning Solution for Large Language Model

Chao Gao

Sai Qian Zhang

ALM

374

08 Apr 2024

Multilingual Brain Surgeon: Large Language Models Can be Compressed Leaving No Language Behind

321

06 Apr 2024

FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping

Lu Yin

294

05 Apr 2024

Rethinking Pruning for Vision-Language Models: Strategies for Effective Sparsity and Performance Restoration

285

03 Apr 2024

Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs

292

29 Mar 2024

LC-LLM: Explainable Lane-Change Intention and Trajectory Predictions with Large Language Models

356

27 Mar 2024

AI and Memory Wall

A. Gholami

Z. Yao

Sehoon Kim

Coleman Hooper

Michael W. Mahoney

Kurt Keutzer

252

262

21 Mar 2024

Pruning for Improved ADC Efficiency in Crossbar-based Analog In-memory Accelerators

126

19 Mar 2024

Toward Sustainable GenAI using Generation Directives for Carbon-Friendly Large Language Model Inference

Baolin Li

Yankai Jiang

V. Gadepally

Devesh Tiwari

244

19 Mar 2024

MELTing point: Mobile Evaluation of Language Transformers

Stefanos Laskaridis

Kleomenis Katevas

Lorenzo Minto

Hamed Haddadi

301

19 Mar 2024

Let's Focus on Neuron: Neuron-Level Supervised Fine-tuning for Large Language ModelInternational Conference on Computational Linguistics (COLING), 2024

220

18 Mar 2024

Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under CompressionInternational Conference on Machine Learning (ICML), 2024

Chulin Xie

...

337

18 Mar 2024

Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment

...

Wei Niu

203

16 Mar 2024

FlexNN: A Dataflow-aware Flexible Deep Learning Accelerator for Energy-Efficient Edge Devices

Arnab Raha

Deepak A. Mathaikutty

Soumendu Kumar Ghosh

Shamik Kundu

140

14 Mar 2024

SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model CompressionInternational Conference on Learning Representations (ICLR), 2024

Xin Wang

Yu Zheng

Zhongwei Wan

Mi Zhang

521

152

12 Mar 2024

ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

Yaojie Lu

Xianpei Han

Weipeng Chen

365

244

06 Mar 2024

DPPA: Pruning Method for Large Language Model to Model Merging

195

05 Mar 2024