v1v2v3v4v5 (latest)

CBQ: Cross-Block Quantization for Large Language Models

International Conference on Learning Representations (ICLR), 2023

13 December 2023

ArXiv (abs)PDF HTML Github

Papers citing "CBQ: Cross-Block Quantization for Large Language Models"

50 / 68 papers shown

Layer-Wise High-Impact Parameter Ratio Optimization in Post-Training Quantization for Large Language Models

181

21 Nov 2025

Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression

268

23 Oct 2025

Neural Weight Compression for Language Models

193

13 Oct 2025

Cat: Post-Training Quantization Error Reduction via Cluster-based Affine Transformation

Ali Zoljodi

Radu Timofte

Masoud Daneshtalab

213

30 Sep 2025

DPQuant: Efficient and Differentially-Private Model Training via Dynamic Quantization Scheduling

199

03 Sep 2025

Rethinking 1-bit Optimization Leveraging Pre-trained Large Language Models

187

09 Aug 2025

Unifying Block-wise PTQ and Distillation-based QAT for Progressive Quantization toward 2-bit Instruction-Tuned LLMs

299

10 Jun 2025

Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization

Yamato Arai

Yuma Ichikawa

622

13 Apr 2025

PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

388

18 Feb 2025

Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis

777

18 Feb 2025

QMamba: Post-Training Quantization for Vision State Space Models

258

23 Jan 2025

Interactions Across Blocks in Post-Training Quantization of Large Language Models

198

06 Nov 2024

Q-VLM: Post-training Quantization for Large Vision-Language ModelsNeural Information Processing Systems (NeurIPS), 2024

577

10 Oct 2024

Multi-Granularity Semantic Revision for Large Language Model Distillation

231

14 Jul 2024

EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

674

112

10 Jul 2024

Rethinking Pruning Large Language Models: Benefits and Pitfalls of Reconstruction Error Minimization

216

21 Jun 2024

BiSup: Bidirectional Quantization Error Suppression for Large Language Models

255

24 May 2024

How to Parameterize Asymmetric Quantization Ranges for Quantization-Aware Training

246

25 Apr 2024

A Survey on Transformer Compression

584

05 Feb 2024

QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language ModelsInternational Conference on Learning Representations (ICLR), 2023

Jing Liu

Yazhe Niu

Xiuying Wei

Zhiwei Dong

Jianfei Cai

Bohan Zhuang

375

12 Oct 2023

OmniQuant: Omnidirectionally Calibrated Quantization for Large Language ModelsInternational Conference on Learning Representations (ICLR), 2023

Yu Qiao

Ping Luo

638

378

25 Aug 2023

QuIP: 2-Bit Quantization of Large Language Models With GuaranteesNeural Information Processing Systems (NeurIPS), 2023

426

362

25 Jul 2023

ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization Using Floating-Point Formats

Xiaoxia Wu

Z. Yao

Yuxiong He

258

19 Jul 2023

Llama 2: Open Foundation and Fine-Tuned Chat Models

Louis Martin

...

Sharan Narang

Sergey Edunov

12.5K

16,448

18 Jul 2023

LLM-QAT: Data-Free Quantization Aware Training for Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Yashar Mehdad

Raghuraman Krishnamoorthi

Vikas Chandra

334

349

29 May 2023

QLoRA: Efficient Finetuning of Quantized LLMsNeural Information Processing Systems (NeurIPS), 2023

Tim Dettmers

Artidoro Pagnoni

Ari Holtzman

Luke Zettlemoyer

ALM

800

4,357

23 May 2023

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head CheckpointsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Joshua Ainslie

Sumit Sanghai

555

1,313

22 May 2023

RPTQ: Reorder-based Post-training Quantization for Large Language Models

653

120

03 Apr 2023

Token Merging for Fast Stable Diffusion

Daniel Bolya

Judy Hoffman

418

220

30 Mar 2023

The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual DatasetNeural Information Processing Systems (NeurIPS), 2023

Albert Villanova del Moral

...

275

209

07 Mar 2023

LLaMA: Open and Efficient Foundation Language Models

...

20.2K

19,547

27 Feb 2023

SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language ModelsInternational Conference on Machine Learning (ICML), 2022

Song Han

1.0K

1,441

18 Nov 2022

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

Elias Frantar

Saleh Ashkboos

Torsten Hoefler

Dan Alistarh

697

1,896

31 Oct 2022

Q-ViT: Accurate and Fully Quantized Low-bit Vision TransformerNeural Information Processing Systems (NeurIPS), 2022

Sheng Xu

252

147

13 Oct 2022

Outlier Suppression: Pushing the Limit of Low-bit Transformer Language ModelsNeural Information Processing Systems (NeurIPS), 2022

Shanghang Zhang

Xianglong Liu

443

212

27 Sep 2022

Optimal Brain Compression: A Framework for Accurate Post-Training Quantization and PruningNeural Information Processing Systems (NeurIPS), 2022

Elias Frantar

Sidak Pal Singh

Dan Alistarh

522

360

24 Aug 2022

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

Tim Dettmers

M. Lewis

Younes Belkada

Luke Zettlemoyer

613

975

15 Aug 2022

Emergent Abilities of Large Language Models

...

Tatsunori Hashimoto

712

3,434

15 Jun 2022

ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale TransformersNeural Information Processing Systems (NeurIPS), 2022

Z. Yao

Reza Yazdani Aminabadi

Yuxiong He

511

672

04 Jun 2022

OPT: Open Pre-trained Transformer Language Models

...

Luke Zettlemoyer

1.1K

4,656

02 May 2022

Post-Training Quantization for Vision TransformerNeural Information Processing Systems (NeurIPS), 2021

476

473

27 Jun 2021

A White Paper on Neural Network Quantization

334

823

15 Jun 2021

BRECQ: Pushing the Limit of Post-Training Quantization by Block ReconstructionInternational Conference on Learning Representations (ICLR), 2021

Yuhang Li

Xu Tan

497

611

10 Feb 2021

Measuring Massive Multitask Language UnderstandingInternational Conference on Learning Representations (ICLR), 2020

4.1K

7,570

07 Sep 2020

Aligning AI With Shared Human Values

890

858

05 Aug 2020

EasyQuant: Post-training Quantization via Scale Optimization

298

30 Jun 2020

Improving Post Training Neural Quantization: Layer-wise Calibration and Integer Programming

373

153

14 Jun 2020

Language Models are Few-Shot LearnersNeural Information Processing Systems (NeurIPS), 2020

...

2.4K

57,120

28 May 2020

Up or Down? Adaptive Rounding for Post-Training Quantization

720

804

22 Apr 2020

MuTual: A Dataset for Multi-Turn Dialogue ReasoningAnnual Meeting of the Association for Computational Linguistics (ACL), 2020

Leyang Cui

Yue Zhang

223

168

09 Apr 2020