Title
Energy-Efficient and Dequantization-Free Q-LLMs: A Spiking Neural Network Approach to Salient Value Mitigation Chenyu Wang Zhanglu Yan Zhi Zhou Xu Chen Weng-Fai Wong MQ 116 0 0 22 Oct 2025
Mixed-Precision Quantization for Language Models: Techniques and Prospects M. Rakka Marios Fournarakis Olga Krestinskaya Jinane Bazzi K. Salama Fadi J. Kurdahi A. Eltawil M. Fouda MQ 147 0 0 19 Oct 2025
Interpreting the Effects of Quantization on LLMs Manpreet Singh Hassan Sajjad MQ MILM 245 0 0 22 Aug 2025
Quantized Neural Networks for Microcontrollers: A Comprehensive Review of Methods, Platforms, and Applications Hamza A. Abushahla Dara Varam Ariel J. N. Panopio Mohamed I. AlHajri MQ 283 0 0 20 Aug 2025
Why Do Some Inputs Break Low-Bit LLM Quantization? Ting-Yun Chang Muru Zhang Jesse Thomason Robin Jia MQ 215 1 0 24 May 2025
Fast and Low-Cost Genomic Foundation Models via Outlier Removal Haozheng Luo Chenghao Qiu Maojiang Su Zhihan Zhou Zoe Mehta Guo Ye Jerry Yao-Chieh Hu Han Liu AAML 364 4 0 01 May 2025
MergeQuant: Accurate 4-bit Static Quantization of Large Language Models by Channel-wise Calibration Jinguang Wang Jiangming Wang Haifeng Sun Tingting Yang Zirui Zhuang Wanyi Ning Yuexi Yin Q. Qi Jianxin Liao MQ MoMe 163 3 0 07 Mar 2025
Compressing Language Models for Specialized Domains Miles Williams G. Chrysostomou Vitor Jeronymo Nikolaos Aletras MQ 224 1 0 25 Feb 2025
The Super Weight in Large Language Models Mengxia Yu De Wang Qi Shan Colorado Reed Alvin Wan MQ MILM 284 29 0 11 Nov 2024
FlatQuant: Flatness Matters for LLM Quantization Yuxuan Sun Ruikang Liu Haoli Bai Han Bao Kang Zhao ... Lu Hou Chun Yuan Xin Jiang Wen Liu Jun Yao MQ 478 26 0 12 Oct 2024
MesonGS: Post-training Compression of 3D Gaussians via Efficient Attribute TransformationEuropean Conference on Computer Vision (ECCV), 2024 Shuzhao Xie Weixiang Zhang Chen Tang Yunpeng Bai Rongwei Lu Shijia Ge Zhi Wang 3DGS 223 31 0 15 Sep 2024
LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices Jung Hyun Lee Jeonghoon Kim J. Yang S. Kwon Eunho Yang Kang Min Yoo Dongsoo Lee MQ 280 5 0 16 Jul 2024
OutlierTune: Efficient Channel-Wise Quantization for Large Language Models Jinguang Wang Yuexi Yin Haifeng Sun Qi Qi Jingyu Wang Zirui Zhuang Tingting Yang Jianxin Liao 135 2 0 27 Jun 2024
Prefixing Attention Sinks can Mitigate Activation Outliers for Large Language Model Quantization Seungwoo Son Wonpyo Park Woohyun Han Kyuyeun Kim Jaeho Lee MQ 210 20 0 17 Jun 2024
ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models Jing Liu Yazhe Niu Mingyang Zhang Yefei He Jianfei Cai Bohan Zhuang MoE 104 2 0 13 Jun 2024
Mitigating Quantization Errors Due to Activation Spikes in GLU-Based LLMs Jaewoo Yang Hayun Kim Younghoon Kim 187 20 0 23 May 2024
SKVQ: Sliding-window Key and Value Cache Quantization for Large Language Models Haojie Duanmu Zhihang Yuan Xiuhong Li Jiangfei Duan Xingcheng Zhang Dahua Lin MQ 220 29 0 10 May 2024
Cherry on Top: Parameter Heterogeneity and Quantization in Large Language ModelsNeural Information Processing Systems (NeurIPS), 2024 Wanyun Cui Qianle Wang MQ 157 10 0 03 Apr 2024
Minimize Quantization Output Error with Bias Compensation Cheng Gong Haoshuai Zheng Mengting Hu Zheng Lin Deng-Ping Fan Yuzhi Zhang Tao Li MQ 144 3 0 02 Apr 2024
QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven Fine Tuning Jiun-Man Chen Yu-Hsuan Chao Yu-Jie Wang Ming-Der Shieh Chih-Chung Hsu Wei-Fen Lin MQ 222 2 0 11 Mar 2024
A Comprehensive Evaluation of Quantization Strategies for Large Language Models Renren Jin Jiangcun Du Wuwei Huang Wei Liu Jian Luan Bin Wang Deyi Xiong MQ 243 60 0 26 Feb 2024
Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Wenhua Cheng Weiwei Zhang Haihao Shen Yiyang Cai Xin He Kaokao Lv Yi. Liu MQ 366 33 0 11 Sep 2023
A Survey on Model Compression for Large Language ModelsTransactions of the Association for Computational Linguistics (TACL), 2023 Xunyu Zhu Jian Li Yong Liu Can Ma Weiping Wang 294 335 0 15 Aug 2023
AWQ: Activation-aware Weight Quantization for LLM Compression and AccelerationConference on Machine Learning and Systems (MLSys), 2023 Ji Lin Jiaming Tang Haotian Tang Shang Yang Wei-Ming Chen Wei-Chen Wang Guangxuan Xiao Xingyu Dang Chuang Gan Song Han EDL MQ 719 913 0 01 Jun 2023

Home
Papers
2304.09145
Cited By

v1v2v3 (latest)

Outlier Suppression+: Accurate quantization of large language models by equivalent and optimal shifting and scaling

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2023

18 April 2023

Yuhang Li

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (46★)

Papers citing "Outlier Suppression+: Accurate quantization of large language models by equivalent and optimal shifting and scaling"

24 / 24 papers shown

Title
Energy-Efficient and Dequantization-Free Q-LLMs: A Spiking Neural Network Approach to Salient Value Mitigation Chenyu Wang Zhanglu Yan Zhi Zhou Xu Chen Weng-Fai Wong MQ 116 0 0 22 Oct 2025
Mixed-Precision Quantization for Language Models: Techniques and Prospects M. Rakka Marios Fournarakis Olga Krestinskaya Jinane Bazzi K. Salama Fadi J. Kurdahi A. Eltawil M. Fouda MQ 147 0 0 19 Oct 2025
Interpreting the Effects of Quantization on LLMs Manpreet Singh Hassan Sajjad MQ MILM 245 0 0 22 Aug 2025
Quantized Neural Networks for Microcontrollers: A Comprehensive Review of Methods, Platforms, and Applications Hamza A. Abushahla Dara Varam Ariel J. N. Panopio Mohamed I. AlHajri MQ 283 0 0 20 Aug 2025
Why Do Some Inputs Break Low-Bit LLM Quantization? Ting-Yun Chang Muru Zhang Jesse Thomason Robin Jia MQ 215 1 0 24 May 2025
Fast and Low-Cost Genomic Foundation Models via Outlier Removal Haozheng Luo Chenghao Qiu Maojiang Su Zhihan Zhou Zoe Mehta Guo Ye Jerry Yao-Chieh Hu Han Liu AAML 364 4 0 01 May 2025
MergeQuant: Accurate 4-bit Static Quantization of Large Language Models by Channel-wise Calibration Jinguang Wang Jiangming Wang Haifeng Sun Tingting Yang Zirui Zhuang Wanyi Ning Yuexi Yin Q. Qi Jianxin Liao MQ MoMe 163 3 0 07 Mar 2025
Compressing Language Models for Specialized Domains Miles Williams G. Chrysostomou Vitor Jeronymo Nikolaos Aletras MQ 224 1 0 25 Feb 2025
The Super Weight in Large Language Models Mengxia Yu De Wang Qi Shan Colorado Reed Alvin Wan MQ MILM 284 29 0 11 Nov 2024
FlatQuant: Flatness Matters for LLM Quantization Yuxuan Sun Ruikang Liu Haoli Bai Han Bao Kang Zhao ... Lu Hou Chun Yuan Xin Jiang Wen Liu Jun Yao MQ 478 26 0 12 Oct 2024
MesonGS: Post-training Compression of 3D Gaussians via Efficient Attribute TransformationEuropean Conference on Computer Vision (ECCV), 2024 Shuzhao Xie Weixiang Zhang Chen Tang Yunpeng Bai Rongwei Lu Shijia Ge Zhi Wang 3DGS 223 31 0 15 Sep 2024
LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices Jung Hyun Lee Jeonghoon Kim J. Yang S. Kwon Eunho Yang Kang Min Yoo Dongsoo Lee MQ 280 5 0 16 Jul 2024
OutlierTune: Efficient Channel-Wise Quantization for Large Language Models Jinguang Wang Yuexi Yin Haifeng Sun Qi Qi Jingyu Wang Zirui Zhuang Tingting Yang Jianxin Liao 135 2 0 27 Jun 2024
Prefixing Attention Sinks can Mitigate Activation Outliers for Large Language Model Quantization Seungwoo Son Wonpyo Park Woohyun Han Kyuyeun Kim Jaeho Lee MQ 210 20 0 17 Jun 2024
ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models Jing Liu Yazhe Niu Mingyang Zhang Yefei He Jianfei Cai Bohan Zhuang MoE 104 2 0 13 Jun 2024
Mitigating Quantization Errors Due to Activation Spikes in GLU-Based LLMs Jaewoo Yang Hayun Kim Younghoon Kim 187 20 0 23 May 2024
SKVQ: Sliding-window Key and Value Cache Quantization for Large Language Models Haojie Duanmu Zhihang Yuan Xiuhong Li Jiangfei Duan Xingcheng Zhang Dahua Lin MQ 220 29 0 10 May 2024
Cherry on Top: Parameter Heterogeneity and Quantization in Large Language ModelsNeural Information Processing Systems (NeurIPS), 2024 Wanyun Cui Qianle Wang MQ 157 10 0 03 Apr 2024
Minimize Quantization Output Error with Bias Compensation Cheng Gong Haoshuai Zheng Mengting Hu Zheng Lin Deng-Ping Fan Yuzhi Zhang Tao Li MQ 144 3 0 02 Apr 2024
QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven Fine Tuning Jiun-Man Chen Yu-Hsuan Chao Yu-Jie Wang Ming-Der Shieh Chih-Chung Hsu Wei-Fen Lin MQ 222 2 0 11 Mar 2024
A Comprehensive Evaluation of Quantization Strategies for Large Language Models Renren Jin Jiangcun Du Wuwei Huang Wei Liu Jian Luan Bin Wang Deyi Xiong MQ 243 60 0 26 Feb 2024
Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Wenhua Cheng Weiwei Zhang Haihao Shen Yiyang Cai Xin He Kaokao Lv Yi. Liu MQ 366 33 0 11 Sep 2023
A Survey on Model Compression for Large Language ModelsTransactions of the Association for Computational Linguistics (TACL), 2023 Xunyu Zhu Jian Li Yong Liu Can Ma Weiping Wang 294 335 0 15 Aug 2023
AWQ: Activation-aware Weight Quantization for LLM Compression and AccelerationConference on Machine Learning and Systems (MLSys), 2023 Ji Lin Jiaming Tang Haotian Tang Shang Yang Wei-Ming Chen Wei-Chen Wang Guangxuan Xiao Xingyu Dang Chuang Gan Song Han EDL MQ 719 913 0 01 Jun 2023