Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2402.14866
Cited By

APTQ: Attention-aware Post-Training Mixed-Precision Quantization for
Large Language Models

v1v2 (latest)

APTQ: Attention-aware Post-Training Mixed-Precision Quantization for Large Language Models

21 February 2024

ArXiv (abs)PDF HTML

Papers citing "APTQ: Attention-aware Post-Training Mixed-Precision Quantization for Large Language Models"

14 / 14 papers shown

Block Rotation is All You Need for MXFP4 Quantization

Block Rotation is All You Need for MXFP4 Quantization

408

3

0

06 Nov 2025

Mixed-Precision Quantization for Language Models: Techniques and Prospects

Mixed-Precision Quantization for Language Models: Techniques and Prospects

Marios Fournarakis

Olga Krestinskaya

Fadi J. Kurdahi

234

0

0

19 Oct 2025

ButterflyQuant: Ultra-low-bit LLM Quantization through Learnable Orthogonal Butterfly Transforms

ButterflyQuant: Ultra-low-bit LLM Quantization through Learnable Orthogonal Butterfly Transforms

Oussama Elachqar

192

1

0

11 Sep 2025

Squeeze10-LLM: Squeezing LLMs' Weights by 10 Times via a Staged Mixed-Precision Quantization Method

Squeeze10-LLM: Squeezing LLMs' Weights by 10 Times via a Staged Mixed-Precision Quantization Method

...

161

0

0

24 Jul 2025

Radio: Rate-Distortion Optimization for Large Language Model Compression

Radio: Rate-Distortion Optimization for Large Language Model Compression

314

2

0

05 May 2025

Balancing Fidelity and Plasticity: Aligning Mixed-Precision Fine-Tuning with Linguistic Hierarchies

Balancing Fidelity and Plasticity: Aligning Mixed-Precision Fine-Tuning with Linguistic Hierarchies

Weizhong Zhang

Cheng Jin

433

2

0

02 May 2025

Enhancing Ultra-Low-Bit Quantization of Large Language Models Through Saliency-Aware Partial Retraining

Enhancing Ultra-Low-Bit Quantization of Large Language Models Through Saliency-Aware Partial RetrainingModeling Decisions for Artificial Intelligence (MDAI), 2025

478

3

0

14 Apr 2025

Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization

Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization

417

6

0

13 Apr 2025

RaanA: A Fast, Flexible, and Data-Efficient Post-Training Quantization Algorithm

RaanA: A Fast, Flexible, and Data-Efficient Post-Training Quantization Algorithm

502

2

0

29 Mar 2025

Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis

Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis

621

6

0

18 Feb 2025

Irrational Complex Rotations Empower Low-bit Optimizers

Irrational Complex Rotations Empower Low-bit Optimizers

269

0

0

22 Jan 2025

Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective

Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective

...

632

46

0

06 Oct 2024

LLM-Barber: Block-Aware Rebuilder for Sparsity Mask in One-Shot for Large Language Models

LLM-Barber: Block-Aware Rebuilder for Sparsity Mask in One-Shot for Large Language Models

179

2

0

20 Aug 2024

SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models

SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models

359

35

0

23 May 2024