STEP: Learning N:M Structured Sparsity Masks from Scratch with Precondition

International Conference on Machine Learning (ICML), 2023

2 February 2023

Papers citing "STEP: Learning N:M Structured Sparsity Masks from Scratch with Precondition"

16 / 16 papers shown

Sparse by Rule: Probability-Based N:M Pruning for Spiking Neural Networks

15 Nov 2025

Extreme Model Compression with Structured Sparsity at Low Precision

Dan Liu

Nikita Dvornik

Xue Liu

196

11 Nov 2025

PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models

11 Oct 2025

SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity

Konstantinos N. Plataniotis

217

19 Jun 2025

MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models

199

15 Jun 2025

TSENOR: Highly-Efficient Algorithm for Finding Transposable N:M Sparse Masks

X. Meng

Mehdi Makni

Rahul Mazumder

204

29 May 2025

SLoPe: Double-Pruned Sparse Plus Lazy Low-Rank Adapter Pretraining of LLMsInternational Conference on Learning Representations (ICLR), 2024

379

28 Jan 2025

MaskLLM: Learnable Semi-Structured Sparsity for Large Language ModelsNeural Information Processing Systems (NeurIPS), 2024

Hongxu Yin

Jan Kautz

Xinchao Wang

174

26 Sep 2024

S-STE: Continuous Pruning Function for Efficient 2:4 Sparse Pre-trainingNeural Information Processing Systems (NeurIPS), 2024

Yuezhou Hu

Jun-Jie Zhu

Jianfei Chen

410

13 Sep 2024

Pruning Large Language Models with Semi-Structural Adaptive Sparse Training

Weiyu Huang

Yuezhou Hu

Guohao Jian

Jun Zhu

Jianfei Chen

323

30 Jul 2024

Effective Interplay between Sparsity and Quantization: From Theory to Practice

...

357

31 May 2024

Accelerating Transformer Pre-training with 2:4 SparsityInternational Conference on Machine Learning (ICML), 2024

Yuezhou Hu

Kang Zhao

Weiyu Huang

Jianfei Chen

Jun Zhu

288

02 Apr 2024

Progressive Gradient Flow for Robust N:M Sparsity Training in Transformers

314

07 Feb 2024

Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy

337

20 Dec 2023

Scaling Laws for Sparsely-Connected Foundation ModelsInternational Conference on Learning Representations (ICLR), 2023

Dan Alistarh

295

15 Sep 2023

Accurate Neural Network Pruning Requires Rethinking Sparse Optimization

Denis Kuznedelev

Dan Alistarh

334

03 Aug 2023