v1v2v3 (latest)

ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models

AAAI Conference on Artificial Intelligence (AAAI), 2024

16 August 2024

ArXiv (abs)PDF HTML Github (243★)

Papers citing "ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models"

9 / 9 papers shown

Mixed-Precision Quantization for Language Models: Techniques and Prospects

294

19 Oct 2025

Error Propagation Mechanisms and Compensation Strategies for Quantized Diffusion

338

16 Aug 2025

SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving

Xiangchen Li

Dimitrios Spatharakis

Saeid Ghafouri

Jiakun Fan

Dimitrios Nikolopoulos

Deepu John

Bo Ji

Dimitrios S. Nikolopoulos

490

11 Jun 2025

Achieving binary weight and activation for LLMs using Post-Training QuantizationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

447

07 Apr 2025

Membership Inference Risks in Quantized Models: A Theoretical and Empirical Study

362

10 Feb 2025

GQSA: Group Quantization and Sparsity for Accelerating Large Language Model Inference

486

23 Dec 2024

SKIM: Any-bit Quantization Pushing The Limits of Post-Training Quantization

Runsheng Bai

Qiang Liu

B. Liu

391

05 Dec 2024

STBLLM: Breaking the 1-Bit Barrier with Structured Binary LLMsInternational Conference on Learning Representations (ICLR), 2024

...

Wei Xue

Wenhan Luo

Qi-fei Liu

Yi-Ting Guo

Xiaowen Chu

231

03 Aug 2024

QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving

796

182

07 May 2024