v1v2v3 (latest)

QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models

International Conference on Learning Representations (ICLR), 2023

12 October 2023

Jing Liu

Yazhe Niu

Xiuying Wei

Zhiwei Dong

Jianfei Cai

Bohan Zhuang

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (5046★)

Papers citing "QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models"

39 / 39 papers shown

Layer-Wise High-Impact Parameter Ratio Optimization in Post-Training Quantization for Large Language Models

179

21 Nov 2025

Improving the Straight-Through Estimator with Zeroth-Order Information

Ningfeng Yang

Tor M. Aamodt

FedML

321

27 Oct 2025

Tequila: Trapping-free Ternary Quantization for Large Language Models

309

28 Sep 2025

Integrating Pruning with Quantization for Efficient Deep Neural Networks Compression

Sara Makenali

Babak Rokh

A. Azarpeyvand

172

04 Sep 2025

MixA-Q: Revisiting Activation Sparsity for Vision Transformers from a Mixed-Precision Quantization Perspective

214

25 Jul 2025

GPTAQ: Efficient Finetuning-Free Quantization for Asymmetric Calibration

494

03 Apr 2025

MergeQuant: Accurate 4-bit Static Quantization of Large Language Models by Channel-wise Calibration

238

07 Mar 2025

SpinQuant: LLM quantization with learned rotationsInternational Conference on Learning Representations (ICLR), 2024

Raghuraman Krishnamoorthi

Vikas Chandra

Yuandong Tian

Tijmen Blankevoort

698

309

21 Feb 2025

PrefixQuant: Eliminating Outliers by Prefixed Tokens for Large Language Models Quantization

367

28 Jan 2025

Deploying Foundation Model Powered Agent Services: A Survey

...

554

18 Dec 2024

Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

430

26 Nov 2024

AMXFP4: Taming Activation Outliers with Asymmetric Microscaling Floating-Point for 4-bit LLM InferenceAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

429

15 Nov 2024

TesseraQ: Ultra Low-Bit LLM Post-Training Quantization with Block Reconstruction

Yuhang Li

Priyadarshini Panda

272

24 Oct 2024

Scaling Laws For Mixed Quantization

414

09 Oct 2024

QERA: an Analytical Framework for Quantization Error Reconstruction

Cheng Zhang

Jeffrey T. H. Wong

Can Xiao

George A. Constantinides

Yiren Zhao

219

08 Oct 2024

LUT Tensor Core: A Software-Hardware Co-Design for LUT-Based Low-Bit LLM InferenceInternational Symposium on Computer Architecture (ISCA), 2024

...

430

12 Aug 2024

EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

661

109

10 Jul 2024

Mobile Edge Intelligence for Large Language Models: A Contemporary Survey

Guanqiao Qu

Qiyuan Chen

Wei Wei

Zheng Lin

Xianhao Chen

Kaibin Huang

625

196

09 Jul 2024

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

Zheng Zhang

530

05 Jul 2024

OutlierTune: Efficient Channel-Wise Quantization for Large Language Models

Qi Qi

Jianxin Liao

221

27 Jun 2024

ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models

Jianfei Cai

233

13 Jun 2024

Low-Rank Quantization-Aware Training for LLMs

Yelysei Bondarenko

Riccardo Del Chiaro

Markus Nagel

449

10 Jun 2024

PTQ4DiT: Post-training Quantization for Diffusion Transformers

Junyi Wu

Haoxuan Wang

Yuzhang Shang

Mubarak Shah

Yan Yan

392

25 May 2024

MiniCache: KV Cache Compression in Depth Dimension for Large Language ModelsNeural Information Processing Systems (NeurIPS), 2024

Akide Liu

Jing Liu

Zizheng Pan

Yefei He

Gholamreza Haffari

Bohan Zhuang

335

23 May 2024

ZipCache: Accurate and Efficient KV Cache Quantization with Salient Token IdentificationNeural Information Processing Systems (NeurIPS), 2024

Jing Liu

Bohan Zhuang

380

23 May 2024

ReALLM: A general framework for LLM compression and fine-tuning

360

21 May 2024

OpenBA-V2: Reaching 77.3% High Compression Ratio with Fast Multi-Stage Pruning

...

Min Zhang

282

09 May 2024

Learning from Students: Applying t-Distributions to Explore Accurate and Efficient Formats for LLMsInternational Conference on Machine Learning (ICML), 2024

Mohamed S. Abdelfattah

Zhiru Zhang

426

06 May 2024

PatentGPT: A Large Language Model for Intellectual Property

...

525

28 Apr 2024

How to Parameterize Asymmetric Quantization Ranges for Quantization-Aware Training

232

25 Apr 2024

A Survey on Efficient Inference for Large Language Models

...

Shengen Yan

483

205

22 Apr 2024

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

...

Raghuraman Krishnamoorthi

Liangzhen Lai

Vikas Chandra

ALM

392

212

22 Feb 2024

Model Compression and Efficient Inference for Large Language Models: A Survey

365

15 Feb 2024

A Survey on Transformer Compression

569

05 Feb 2024

LQER: Low-Rank Quantization Error Reconstruction for LLMs

Cheng Zhang

Jianyi Cheng

George A. Constantinides

Yiren Zhao

466

04 Feb 2024

Scaling Down to Scale Up: A Cost-Benefit Analysis of Replacing OpenAI's LLM with Open Source SLMs in Production

Chandra Irugalbandara

Ashish Mahendra

Roland Daynauth

T. Arachchige

Kugesan Sivasothynathan

398

20 Dec 2023

CBQ: Cross-Block Quantization for Large Language ModelsInternational Conference on Learning Representations (ICLR), 2023

...

888

13 Dec 2023

SiDA-MoE: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable Large Mixture-of-Experts ModelsConference on Machine Learning and Systems (MLSys), 2023

Yiran Chen

455

29 Oct 2023

OmniQuant: Omnidirectionally Calibrated Quantization for Large Language ModelsInternational Conference on Learning Representations (ICLR), 2023

Yu Qiao

Ping Luo

596

374

25 Aug 2023