GroupReduce: Block-Wise Low-Rank Approximation for Neural Language Model Shrinking

18 June 2018

Papers citing "GroupReduce: Block-Wise Low-Rank Approximation for Neural Language Model Shrinking"

44 / 44 papers shown

TropNNC: Structured Neural Network Compression Using Tropical Geometry

Konstantinos Fotopoulos

Petros Maragos

Panagiotis Misiakos

344

24 Dec 2025

CoSpaDi: Compressing LLMs via Calibration-Guided Sparse Dictionary Learning

Stamatios Lefkimmiatis

244

26 Sep 2025

Importance-Aware Activation Space Reconstruction

Md Mokarram Chowdhury

Daniel Agyei Asante

E. Chang

Yang Li

199

04 Jul 2025

TensorSLM: Energy-efficient Embedding Compression of Sub-billion Parameter Language Models on Low-end Devices

Mingxue Xu

Y. Xu

Danilo Mandic

225

16 Jun 2025

ProcrustesGPT: Compressing LLMs with Structured Matrices and Orthogonal TransformationsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Ekaterina Grishina

Mikhail Gorbunov

Maxim Rakhuba

237

03 Jun 2025

Zero-Trust Mobility-Aware Authentication Framework for Secure Vehicular Fog Computing Networks

Taimoor Ahmad

172

21 May 2025

RWKV-edge: Deeply Compressed RWKV for Resource-Constrained Devices

Wonkyo Choe

Yangfeng Ji

F. Lin

612

14 Dec 2024

MCUBERT: Memory-Efficient BERT Inference on Commodity MicrocontrollersInternational Conference on Computer Aided Design (ICCAD), 2024

Meng Li

333

23 Oct 2024

Geometry is All You Need: A Unified Taxonomy of Matrix and Tensor Factorization for Compression of Generative Language Models

Mingxue Xu

Sadia Sharmin

Danilo Mandic

352

03 Oct 2024

Reweighted Solutions for Weighted Low Rank Approximation

David P. Woodruff

T. Yasuda

266

04 Jun 2024

Basis Selection: Low-Rank Decomposition of Pretrained Large Language Models for Target Applications

374

24 May 2024

Characterizing the Accuracy - Efficiency Trade-off of Low-rank Decomposition in Language Models

Chakshu Moar

Michael Pellauer

Hyoukjun Kwon

180

10 May 2024

DSFormer: Effective Compression of Text-Transformers by Dense-Sparse Weight Factorization

Rahul Chand

Yashoteja Prabhu

Pratyush Kumar

223

20 Dec 2023

Experimental Analysis of Large-scale Learnable Vector Storage CompressionProceedings of the VLDB Endowment (PVLDB), 2023

351

27 Nov 2023

PELA: Learning Parameter-Efficient Models with Low-Rank ApproximationComputer Vision and Pattern Recognition (CVPR), 2023

Yangyang Guo

Guangzhi Wang

Mohan S. Kankanhalli

270

16 Oct 2023

TensorGPT: Efficient Compression of the Embedding Layer in LLMs based on the Tensor-Train Decomposition

Mingxue Xu

Y. Xu

Danilo Mandic

328

02 Jul 2023

Low-Rank Prune-And-Factorize for Language Model CompressionInternational Conference on Language Resources and Evaluation (LREC), 2023

Siyu Ren

Kenny Q. Zhu

324

25 Jun 2023

Towards energy-efficient Deep Learning: An overview of energy-efficient approaches along the Deep Learning Lifecycle

285

05 Feb 2023

HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer Compression

223

30 Nov 2022

Numerical Optimizations for Weighted Low-rank Estimation on Language ModelConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

261

02 Nov 2022

MorphTE: Injecting Morphology in Tensorized EmbeddingsNeural Information Processing Systems (NeurIPS), 2022

Sunzhu Li

182

27 Oct 2022

Language model compression with weighted low-rank factorizationInternational Conference on Learning Representations (ICLR), 2022

400

202

30 Jun 2022

Bottleneck Low-rank Transformers for Low-resource Spoken Language UnderstandingInterspeech (Interspeech), 2022

Pu Wang

Hugo Van hamme

VLM

253

28 Jun 2022

LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language ModelsInternational Conference on Learning Representations (ICLR), 2022

557

130

20 Jun 2022

Rank Diminishing in Deep Neural NetworksNeural Information Processing Systems (NeurIPS), 2022

294

13 Jun 2022

Efficient Mixed Dimension Embeddings for Matrix Factorization

175

18 May 2022

A Survey on Green Deep Learning

Lei Li

510

102

08 Nov 2021

Compressing Neural Networks: Towards Determining the Optimal Layer-wise DecompositionNeural Information Processing Systems (NeurIPS), 2021

Daniela Rus

305

23 Jul 2021

From Fully Trained to Fully Random Embeddings: Improving Neural Machine Translation with Compact Word Embedding TablesAAAI Conference on Artificial Intelligence (AAAI), 2021

Qun Liu

250

18 Apr 2021

Extremely Low Bit Transformer Quantization for On-Device Neural Machine TranslationFindings (Findings), 2020

273

16 Sep 2020

MetaDistiller: Network Self-Boosting via Meta-Learned Top-Down DistillationEuropean Conference on Computer Vision (ECCV), 2020

Jie Zhou

218

27 Aug 2020

DeLighT: Deep and Light-weight Transformer

Luke Zettlemoyer

340

03 Aug 2020

DeFormer: Decomposing Pre-trained Transformers for Faster Question AnsweringAnnual Meeting of the Association for Computational Linguistics (ACL), 2020

Qingqing Cao

H. Trivedi

A. Balasubramanian

Niranjan Balasubramanian

219

02 May 2020

A Generic Network Compression Framework for Sequential Recommender Systems

Zhou Zhao

287

21 Apr 2020

LadaBERT: Lightweight Adaptation of BERT through Hybrid Model CompressionInternational Conference on Computational Linguistics (COLING), 2020

Yujing Wang

Jing Bai

218

08 Apr 2020

One-Shot Pruning of Recurrent Neural Networks by Jacobian Spectrum EvaluationInternational Conference on Learning Representations (ICLR), 2019

Matthew Shunshi Zhang

Bradly C. Stadie

169

30 Nov 2019

DeFINE: DEep Factorized INput Token Embeddings for Neural Sequence ModelingInternational Conference on Learning Representations (ICLR), 2019

Sachin Mehta

Rik Koncel-Kedziorski

Mohammad Rastegari

Hannaneh Hajishirzi

AI4TS

367

27 Nov 2019

Fully Quantized Transformer for Machine TranslationFindings (Findings), 2019

Gabriele Prato

Ella Charlaix

Mehdi Rezagholizadeh

404

17 Oct 2019

Improving Word Embedding Factorization for Compression Using Distilled Nonlinear Neural Decomposition

265

02 Oct 2019

A Tensorized Transformer for Language ModelingNeural Information Processing Systems (NeurIPS), 2019

409

193

24 Jun 2019

Learning Low-Rank Approximation for CNNs

331

24 May 2019

Network Pruning for Low-Rank Binary Indexing

228

14 May 2019

Tensorized Embedding Layers for Efficient Model Compression

327

30 Jan 2019

WEST: Word Encoded Sequence TransducersIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2018

Ehsan Variani

A. Suresh

M. Weintraub

196

20 Nov 2018