v1v2v3 (latest)

SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot

International Conference on Machine Learning (ICML), 2023

2 January 2023

Elias Frantar

Dan Alistarh

VLM

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)Github (799★)

Papers citing "SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot"

50 / 665 papers shown

Not All Layers of LLMs Are Necessary During Inference

Siqi Fan

Xin Jiang

Xiang Li

Yequan Wang

434

04 Mar 2024

Structurally Prune Anything: Any Architecture, Any Framework, Any Time

Xun Wang

John Rachwan

Stephan Günnemann

Bertrand Charpentier

189

03 Mar 2024

OSSCAR: One-Shot Structured Pruning in Vision and Language Models with Combinatorial Optimization

339

02 Mar 2024

IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact

Chun Yuan

254

02 Mar 2024

NeuroPrune: A Neuro-inspired Topological Sparse Training Algorithm for Large Language Models

366

28 Feb 2024

CLLMs: Consistency Large Language Models

464

28 Feb 2024

SparseLLM: Towards Global Pruning for Pre-trained Language Models

487

28 Feb 2024

SequentialAttention++ for Block Sparsification: Differentiable Pruning Meets Combinatorial Optimization

Vahab Mirrokni

433

27 Feb 2024

Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding

295

26 Feb 2024

LLM Inference Unveiled: Survey and Roofline Model Insights

Zhihang Yuan

Yuzhang Shang

Yang Zhou

Zhen Dong

Zhe Zhou

...

Yong Jae Lee

Yan Yan

Beidi Chen

Guangyu Sun

Kurt Keutzer

620

148

26 Feb 2024

Data-free Weight Compress and Denoise for Large Language Models

Qipeng Guo

Xipeng Qiu

Dahua Lin

311

26 Feb 2024

How Do Nonlinear Transformers Learn and Generalize in In-Context Learning?

474

23 Feb 2024

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

...

Raghuraman Krishnamoorthi

Liangzhen Lai

Vikas Chandra

ALM

334

185

22 Feb 2024

Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models

296

22 Feb 2024

ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models

Chenyang Song

Xu Han

Zhengyan Zhang

...

Zhiyuan Liu

Maosong Sun

370

21 Feb 2024

A Survey on Knowledge Distillation of Large Language Models

464

229

20 Feb 2024

Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large Language Models

Didi Zhu

222

19 Feb 2024

Head-wise Shareable Attention for Large Language Models

Zouying Cao

Yifei Yang

Hai Zhao

171

19 Feb 2024

Sequoia: Scalable, Robust, and Hardware-aware Speculative Decoding

388

19 Feb 2024

BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation

Yu Qiao

Ping Luo

MoE

318

18 Feb 2024

Why Lift so Heavy? Slimming Large Language Models by Cutting Off the Layers

340

18 Feb 2024

OneBit: Towards Extremely Low-bit Large Language Models

Xu Han

Shuo Wang

Zhiyuan Liu

237

17 Feb 2024

LaCo: Large Language Model Pruning via Layer Collapse

Yifei Yang

Zouying Cao

Hai Zhao

251

17 Feb 2024

Speculative Streaming: Fast LLM Inference without Auxiliary Models

281

16 Feb 2024

Efficiency at Scale: Investigating the Performance of Diminutive Language Models in Clinical Tasks

Niall Taylor

U. Ghose

Omid Rohanian

Mohammadmahdi Nouriborji

251

16 Feb 2024

Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs

306

16 Feb 2024

One-Bit Quantization and Sparsification for Multiclass Linear Classification via Regularized Regression

Reza Ghane

D. Akhtiamov

Babak Hassibi

218

16 Feb 2024

Squat: Quant Small Language Models on the Edge

...

378

16 Feb 2024

BitDelta: Your Fine-Tune May Only Be Worth One Bit

Song Han

Tianle Cai

265

15 Feb 2024

QUICK: Quantization-aware Interleaving and Conflict-free Kernel for efficient LLM inference

125

15 Feb 2024

NutePrune: Efficient Progressive Pruning with Numerous Teachers for Large Language Models

Shengrui Li

Junzhe Chen

Xueting Han

Jing Bai

263

15 Feb 2024

Model Compression and Efficient Inference for Large Language Models: A Survey

298

15 Feb 2024

SLEB: Streamlining LLMs through Redundancy Verification and Elimination of Transformer Blocks

521

14 Feb 2024

Towards Meta-Pruning via Optimal Transport

389

12 Feb 2024

Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

...

Niklas Muennighoff

245

321

12 Feb 2024

Learn To be Efficient: Build Structured Sparsity in Large Language Models

Beidi Chen

283

09 Feb 2024

RepQuant: Towards Accurate Post-Training Quantization of Large Transformer Models via Scale Reparameterization

Zhikai Li

Xuewen Liu

Jing Zhang

Qingyi Gu

250

08 Feb 2024

Accurate LoRA-Finetuning Quantization of LLMs via Information Retention

Yang Zhang

Xianglong Liu

Michele Magno

224

08 Feb 2024

Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes

Graham Neubig

278

08 Feb 2024

Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding

Jonathan Ragan-Kelley

William Brandon

330

07 Feb 2024

Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications

Kaixuan Huang

Mengdi Wang

309

174

07 Feb 2024

Progressive Gradient Flow for Robust N:M Sparsity Training in Transformers

314

07 Feb 2024

The Fine-Grained Complexity of Gradient Computation for Training Large Language Models

Josh Alman

Zhao Song

214

07 Feb 2024

BiLLM: Pushing the Limit of Post-Training Quantization for LLMsInternational Conference on Machine Learning (ICML), 2024

Xianglong Liu

Michele Magno

Xiaojuan Qi

317

128

06 Feb 2024

MobileVLM V2: Faster and Stronger Baseline for Vision Language Model

...

Chunhua Shen

238

148

06 Feb 2024

A Survey on Transformer Compression

474

05 Feb 2024

Shortened LLaMA: Depth Pruning for Large Language Models with Comparison of Retraining Methods

Tae-Ho Kim

303

05 Feb 2024

NetLLM: Adapting Large Language Models for Networking

344

120

04 Feb 2024

Beyond the Limits: A Survey of Techniques to Extend the Context Length in Large Language Models

262

03 Feb 2024

Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward

291

02 Feb 2024