v1v2 (latest)

IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact

2 March 2024

Chun Yuan

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (44★)

Papers citing "IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact"

24 / 24 papers shown

SingleQuant: Efficient Quantization of Large Language Models in a Single Pass

111

27 Nov 2025

Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

184

20 Aug 2025

SurfaceLogicKV: Surface and Logic Attention Behaviors are All You Need for Robust KV Cache Compression

Mengjie Li

William J. Song

VLM

14 Aug 2025

XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization

186

14 Aug 2025

LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Image and Video Generation

243

05 Aug 2025

KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache

18 May 2025

ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training

376

16 May 2025

Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models

428

07 Apr 2025

SQuat: Subspace-orthogonal KV Cache Quantization

388

31 Mar 2025

FlexPrefill: A Context-Aware Sparse Attention Mechanism for Efficient Long-Sequence InferenceInternational Conference on Learning Representations (ICLR), 2025

303

28 Feb 2025

Binary Neural Networks for Large Language Model: A Survey

279

26 Feb 2025

Probe Pruning: Accelerating LLMs through Dynamic Pruning via Model-ProbingInternational Conference on Learning Representations (ICLR), 2025

337

24 Feb 2025

Do we really have to filter out random noise in pre-training data for language models?

441

10 Feb 2025

AKVQ-VL: Attention-Aware KV Cache Adaptive 2-Bit Quantization for Vision-Language Models

109

28 Jan 2025

Deploying Foundation Model Powered Agent Services: A Survey

...

483

18 Dec 2024

Squeezed Attention: Accelerating Long Context Length LLM InferenceAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Coleman Hooper

Sehoon Kim

Hiva Mohammadzadeh

Monishwaran Maheswaran

608

14 Nov 2024

Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs

Michael I. Jordan

305

17 Oct 2024

Harnessing Your DRAM and SSD for Sustainable and Accessible LLM Inference with Mixed-Precision and Multi-level Caching

Yanyong Zhang

304

17 Oct 2024

AsymKV: Enabling 1-Bit Quantization of KV Cache with Layer-Wise Asymmetric Quantization ConfigurationsInternational Conference on Computational Linguistics (COLING), 2024

Qian Tao

Wenyuan Yu

Jingren Zhou

188

17 Oct 2024

MaskControl: Spatio-Temporal Control for Masked Motion Synthesis

Ekkasit Pinyoanuntapong

Muhammad Usama Saleem

Korrawe Karunratanakul

488

14 Oct 2024

FlatQuant: Flatness Matters for LLM Quantization

...

593

12 Oct 2024

AlignedKV: Reducing Memory Access of KV-Cache with Precision-Aligned Quantization

245

25 Sep 2024

LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference

Zhongwei Wan

Zhihong Zhu

Li Yuan

284

26 Jun 2024

PTQ4DiT: Post-training Quantization for Diffusion Transformers

Junyi Wu

Haoxuan Wang

Yuzhang Shang

Mubarak Shah

Yan Yan

306

25 May 2024