Improving Post Training Neural Quantization: Layer-wise Calibration and Integer Programming

14 June 2020

Papers citing "Improving Post Training Neural Quantization: Layer-wise Calibration and Integer Programming"

50 / 72 papers shown

Title
GPTAQ: Efficient Finetuning-Free Quantization for Asymmetric Calibration Yuhang Li Ruokai Yin Donghyun Lee Shiting Xiao Priyadarshini Panda MQ 48 0 0 03 Apr 2025
Task Vector Quantization for Memory-Efficient Model Merging Youngeun Kim Seunghwan Lee Aecheon Jung Bogon Ryu Sungeun Hong MQ MoMe 52 0 0 10 Mar 2025
RSQ: Learning from Important Tokens Leads to Better Quantized LLMs Yi-Lin Sung Prateek Yadav Jialu Li Jaehong Yoon Mohit Bansal MQ 52 1 0 03 Mar 2025
Improving Quantization-aware Training of Low-Precision Network via Block Replacement on Full-Precision Counterpart Chengting Yu Shu Yang Fengzhao Zhang Hanzhi Ma Aili Wang Er-ping Li MQ 77 2 0 20 Dec 2024
MPQ-DM: Mixed Precision Quantization for Extremely Low Bit Diffusion Models Weilun Feng Haotong Qin Chuanguang Yang Zhulin An Libo Huang Boyu Diao Fei Wang Renshuai Tao Y. Xu Michele Magno DiffM MQ 80 4 0 16 Dec 2024
MPQ-Diff: Mixed Precision Quantization for Diffusion Models Rocco Manz Maruzzelli Basile Lewandowski Lydia Y. Chen DiffM MQ 98 0 0 28 Nov 2024
On the Impact of White-box Deployment Strategies for Edge AI on Latency and Model Performance Jaskirat Singh Bram Adams Ahmed E. Hassan VLM 34 0 0 01 Nov 2024
TesseraQ: Ultra Low-Bit LLM Post-Training Quantization with Block Reconstruction Yuhang Li Priyadarshini Panda MQ 26 1 0 24 Oct 2024
Reclaiming Residual Knowledge: A Novel Paradigm to Low-Bit Quantization Róisín Luo Alexandru Drimbarean Walsh Simon Colm O'Riordan MQ 29 0 0 01 Aug 2024
Temporal Feature Matters: A Framework for Diffusion Model Quantization Yushi Huang Ruihao Gong Xianglong Liu Jing Liu Yuhang Li Jiwen Lu Dacheng Tao DiffM MQ 49 0 0 28 Jul 2024
Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners Yifei Gao Jie Ou Lei Wang Fanhua Shang Jaji Wu MQ 45 0 0 22 Jul 2024
ISQuant: apply squant to the real deployment Dezan Zhao MQ 19 0 0 05 Jul 2024
Timestep-Aware Correction for Quantized Diffusion Models Yuzhe Yao Feng Tian Jun Chen Haonan Lin Guang Dai Yong Liu Jingdong Wang DiffM MQ 38 5 0 04 Jul 2024
SFC: Achieve Accurate Fast Convolution under Low-precision Arithmetic Liulu He Yufei Zhao Rui Gao Yuan Du Li Du 24 0 0 03 Jul 2024
Compensate Quantization Errors: Make Weights Hierarchical to Compensate Each Other Yifei Gao Jie Ou Lei Wang Yuting Xiao Zhiyuan Xiang Ruiting Dai Jun Cheng MQ 31 2 0 24 Jun 2024
Low-Rank Quantization-Aware Training for LLMs Yelysei Bondarenko Riccardo Del Chiaro Markus Nagel MQ 33 9 0 10 Jun 2024
STAT: Shrinking Transformers After Training Megan Flynn Alexander Wang Dean Edward Alvarez Christopher De Sa Anil Damle 31 2 0 29 May 2024
Nearest is Not Dearest: Towards Practical Defense against Quantization-conditioned Backdoor Attacks Boheng Li Yishuo Cai Haowei Li Feng Xue Zhifeng Li Yiming Li MQ AAML 27 20 0 21 May 2024
Selective Focus: Investigating Semantics Sensitivity in Post-training Quantization for Lane Detection Yunqian Fan Xiuying Wei Ruihao Gong Yuqing Ma Xiangguo Zhang Qi Zhang Xianglong Liu MQ 27 2 0 10 May 2024
Quantization of Large Language Models with an Overdetermined Basis D. Merkulov Daria Cherniuk Alexander Rudikov Ivan V. Oseledets Ekaterina A. Muravleva A. Mikhalev Boris Kashin MQ 29 0 0 15 Apr 2024
On the Impact of Black-box Deployment Strategies for Edge AI on Latency and Model Performance Jaskirat Singh Emad Fallahzadeh Bram Adams Ahmed E. Hassan MQ 32 3 0 25 Mar 2024
COMQ: A Backpropagation-Free Algorithm for Post-Training Quantization Aozhong Zhang Zi Yang Naigang Wang Yingyong Qin Jack Xin Xin Li Penghang Yin VLM MQ 38 3 0 11 Mar 2024
CBQ: Cross-Block Quantization for Large Language Models Xin Ding Xiaoyu Liu Zhijun Tu Yun-feng Zhang Wei Li ... Hanting Chen Yehui Tang Zhiwei Xiong Baoqun Yin Yunhe Wang MQ 27 12 0 13 Dec 2023
GenQ: Quantization in Low Data Regimes with Generative Synthetic Data Yuhang Li Youngeun Kim Donghyun Lee Souvik Kundu Priyadarshini Panda MQ 22 2 0 07 Dec 2023
TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models Yushi Huang Ruihao Gong Jing Liu Tianlong Chen Xianglong Liu DiffM MQ 17 37 0 27 Nov 2023
QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models Jing Liu Ruihao Gong Xiuying Wei Zhiwei Dong Jianfei Cai Bohan Zhuang MQ 23 51 0 12 Oct 2023
Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM Luoming Zhang Wen Fei Weijia Wu Yefei He Zhenyu Lou Hong Zhou MQ 17 5 0 07 Oct 2023
MixQuant: Mixed Precision Quantization with a Bit-width Optimization Search Yichen Xie Wei Le MQ 11 4 0 29 Sep 2023
EPTQ: Enhanced Post-Training Quantization via Label-Free Hessian Ofir Gordon H. Habi Arnon Netzer MQ 28 1 0 20 Sep 2023
SPFQ: A Stochastic Algorithm and Its Error Analysis for Neural Network Quantization Jinjie Zhang Rayan Saab 11 0 0 20 Sep 2023
Quantization Aware Factorization for Deep Neural Network Compression Daria Cherniuk Stanislav Abukhovich Anh-Huy Phan Ivan V. Oseledets A. Cichocki Julia Gusak MQ 15 2 0 08 Aug 2023
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing Yelysei Bondarenko Markus Nagel Tijmen Blankevoort MQ 13 88 0 22 Jun 2023
Intriguing Properties of Quantization at Scale Arash Ahmadian Saurabh Dash Hongyu Chen Bharat Venkitesh Stephen Gou Phil Blunsom A. Ustun Sara Hooker MQ 43 38 0 30 May 2023
RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models David Qiu David Rim Shaojin Ding Oleg Rybakov Yanzhang He MQ 14 4 0 24 May 2023
PTQD: Accurate Post-Training Quantization for Diffusion Models Yefei He Luping Liu Jing Liu Weijia Wu Hong Zhou Bohan Zhuang DiffM MQ 22 101 0 18 May 2023
Patch-wise Mixed-Precision Quantization of Vision Transformer Junrui Xiao Zhikai Li Lianwei Yang Qingyi Gu MQ 22 12 0 11 May 2023
Solving Oscillation Problem in Post-Training Quantization Through a Theoretical Perspective Yuexiao Ma Huixia Li Xiawu Zheng Xuefeng Xiao Rui Wang Shilei Wen Xin Pan Fei Chao Rongrong Ji MQ 10 11 0 21 Mar 2023
Gradient-Free Structured Pruning with Unlabeled Data Azade Nova H. Dai Dale Schuurmans SyDa 21 20 0 07 Mar 2023
QFT: Post-training quantization via fast joint finetuning of all degrees of freedom Alexander Finkelstein Ella Fuchs Idan Tal Mark Grobman Niv Vosco Eldad Meller MQ 10 6 0 05 Dec 2022
Post-training Quantization on Diffusion Models Yuzhang Shang Zhihang Yuan Bin Xie Bingzhe Wu Yan Yan DiffM MQ 15 156 0 28 Nov 2022
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers Elias Frantar Saleh Ashkboos Torsten Hoefler Dan Alistarh MQ 14 882 0 31 Oct 2022
AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of Large-Scale Pre-Trained Language Models S. Kwon Jeonghoon Kim Jeongin Bae Kang Min Yoo Jin-Hwa Kim Baeseong Park Byeongwook Kim Jung-Woo Ha Nako Sung Dongsoo Lee MQ 21 30 0 08 Oct 2022
Mixed-Precision Neural Networks: A Survey M. Rakka M. Fouda Pramod P. Khargonekar Fadi J. Kurdahi MQ 18 11 0 11 Aug 2022
Energy-efficient Deployment of Deep Learning Applications on Cortex-M based Microcontrollers using Deep Compression M. Deutel Philipp Woller Christopher Mutschler Jürgen Teich 45 4 0 20 May 2022
RAPQ: Rescuing Accuracy for Power-of-Two Low-bit Post-training Quantization Hongyi Yao Pu Li Jian Cao Xiangcheng Liu Chenying Xie Bin Wang MQ 11 12 0 26 Apr 2022
A Fast Post-Training Pruning Framework for Transformers Woosuk Kwon Sehoon Kim Michael W. Mahoney Joseph Hassoun Kurt Keutzer A. Gholami 13 143 0 29 Mar 2022
An Empirical Study of Low Precision Quantization for TinyML Shaojie Zhuo Hongyu Chen R. Ramakrishnan Tommy Chen Chen Feng Yi-Rung Lin Parker Zhang Liang Shen MQ 27 13 0 10 Mar 2022
SQuant: On-the-Fly Data-Free Quantization via Diagonal Hessian Approximation Cong Guo Yuxian Qiu Jingwen Leng Xiaotian Gao Chen Zhang Yunxin Liu Fan Yang Yuhao Zhu Minyi Guo MQ 63 70 0 14 Feb 2022
F8Net: Fixed-Point 8-bit Only Multiplication for Network Quantization Qing Jin Jian Ren Richard Zhuang Sumant Hanumante Zhengang Li Zhiyu Chen Yanzhi Wang Kai-Min Yang Sergey Tulyakov MQ 24 47 0 10 Feb 2022
TinyM $^2$ Net: A Flexible System Algorithm Co-designed Multimodal Learning Framework for Tiny Devices Hasib-Al Rashid Pretom Roy Ovi Carl E. Busart A. Gangopadhyay T. Mohsenin 22 11 0 09 Feb 2022