Learning to Quantize Deep Networks by Optimizing Quantization Intervals with Task Loss

17 August 2018

Papers citing "Learning to Quantize Deep Networks by Optimizing Quantization Intervals with Task Loss"

50 / 72 papers shown

Title
Cauchy-Schwarz Regularizers Sueda Taner Ziyi Wang Christoph Studer 41 0 0 03 Mar 2025
Realizing Unaligned Block-wise Pruning for DNN Acceleration on Mobile Devices Hayun Lee Dongkun Shin MQ 28 0 0 29 Jul 2024
LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices Jung Hyun Lee Jeonghoon Kim J. Yang S. Kwon Eunho Yang Kang Min Yoo Dongsoo Lee MQ 36 2 0 16 Jul 2024
Instance-Aware Group Quantization for Vision Transformers Jaehyeon Moon Dohyung Kim Junyong Cheon Bumsub Ham MQ ViT 29 6 0 01 Apr 2024
Better Schedules for Low Precision Training of Deep Neural Networks Cameron R. Wolfe Anastasios Kyrillidis 45 1 0 04 Mar 2024
Overcoming Distribution Mismatch in Quantizing Image Super-Resolution Networks Chee Hong Kyoung Mu Lee SupR MQ 21 1 0 25 Jul 2023
Quantized Feature Distillation for Network Quantization Kevin Zhu Yin He Jianxin Wu MQ 29 9 0 20 Jul 2023
Minimizing Energy Consumption of Deep Learning Models by Energy-Aware Training Dario Lazzaro Antonio Emanuele Cinà Maura Pintor Ambra Demontis Battista Biggio Fabio Roli Marcello Pelillo 27 6 0 01 Jul 2023
Q-YOLO: Efficient Inference for Real-time Object Detection Mingze Wang H. Sun Jun Shi Xuhui Liu Baochang Zhang Xianbin Cao ObjD 39 8 0 01 Jul 2023
Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization Jeonghoon Kim J. H. Lee Sungdong Kim Joonsuk Park Kang Min Yoo S. Kwon Dongsoo Lee MQ 41 98 0 23 May 2023
CABM: Content-Aware Bit Mapping for Single Image Super-Resolution Network with Large Input Senmao Tian Ming Lu Jiaming Liu Yandong Guo Yurong Chen Shunli Zhang SupR MQ 20 11 0 13 Apr 2023
AutoQNN: An End-to-End Framework for Automatically Quantizing Neural Networks Cheng Gong Ye Lu Surong Dai Deng Qian Chenkun Du Tao Li MQ 27 0 0 07 Apr 2023
RPTQ: Reorder-based Post-training Quantization for Large Language Models Zhihang Yuan Lin Niu Jia-Wen Liu Wenyu Liu Xinggang Wang Yuzhang Shang Guangyu Sun Qiang Wu Jiaxiang Wu Bingzhe Wu MQ 35 78 0 03 Apr 2023
Q-DETR: An Efficient Low-Bit Quantized Detection Transformer Sheng Xu Yanjing Li Mingbao Lin Penglei Gao Guodong Guo Jinhu Lu Baochang Zhang MQ 18 23 0 01 Apr 2023
Hard Sample Matters a Lot in Zero-Shot Quantization Huantong Li Xiangmiao Wu Fanbing Lv Daihai Liao Thomas H. Li Yonggang Zhang Bo Han Mingkui Tan MQ 24 20 0 24 Mar 2023
PD-Quant: Post-Training Quantization based on Prediction Difference Metric Jiawei Liu Lin Niu Zhihang Yuan Dawei Yang Xinggang Wang Wenyu Liu MQ 96 68 0 14 Dec 2022
Vertical Layering of Quantized Neural Networks for Heterogeneous Inference Hai Wu Ruifei He Hao Hao Tan Xiaojuan Qi Kaibin Huang MQ 21 2 0 10 Dec 2022
FullPack: Full Vector Utilization for Sub-Byte Quantized Inference on General Purpose CPUs Hossein Katebi Navidreza Asadi M. Goudarzi MQ 14 0 0 13 Nov 2022
Exploiting the Partly Scratch-off Lottery Ticket for Quantization-Aware Training Yunshan Zhong Gongrui Nan Yu-xin Zhang Fei Chao Rongrong Ji MQ 18 3 0 12 Nov 2022
Quantization-Based Optimization: Alternative Stochastic Approximation of Global Optimization Jinwuk Seok Changhun Cho 14 2 0 08 Nov 2022
ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural Network Quantization Cong Guo Chen Zhang Jingwen Leng Zihan Liu Fan Yang Yun-Bo Liu Minyi Guo Yuhao Zhu MQ 16 55 0 30 Aug 2022
Mixed-Precision Neural Networks: A Survey M. Rakka M. Fouda Pramod P. Khargonekar Fadi J. Kurdahi MQ 21 11 0 11 Aug 2022
Symmetry Regularization and Saturating Nonlinearity for Robust Quantization Sein Park Yeongsang Jang Eunhyeok Park MQ 14 1 0 31 Jul 2022
CADyQ: Content-Aware Dynamic Quantization for Image Super-Resolution Chee Hong Sungyong Baik Heewon Kim Seungjun Nah Kyoung Mu Lee SupR MQ 25 32 0 21 Jul 2022
Quantum Neural Network Compression Zhirui Hu Peiyan Dong Zhepeng Wang Youzuo Lin Yanzhi Wang Weiwen Jiang GNN 25 28 0 04 Jul 2022
BiTAT: Neural Network Binarization with Task-dependent Aggregated Transformation Geondo Park Jaehong Yoon H. Zhang Xingge Zhang S. Hwang Yonina C. Eldar MQ 28 1 0 04 Jul 2022
Minimum Variance Unbiased N:M Sparsity for the Neural Gradients Brian Chmiel Itay Hubara Ron Banner Daniel Soudry 17 10 0 21 Mar 2022
Standard Deviation-Based Quantization for Deep Neural Networks Amir Ardakani A. Ardakani B. Meyer J. Clark W. Gross MQ 46 1 0 24 Feb 2022
Quantune: Post-training Quantization of Convolutional Neural Networks using Extreme Gradient Boosting for Fast Deployment Jemin Lee Misun Yu Yongin Kwon Teaho Kim MQ 17 17 0 10 Feb 2022
Nonuniform-to-Uniform Quantization: Towards Accurate Quantization via Generalized Straight-Through Estimation Zechun Liu Kwang-Ting Cheng Dong Huang Eric P. Xing Zhiqiang Shen MQ 25 102 0 29 Nov 2021
Sharpness-aware Quantization for Deep Neural Networks Jing Liu Jianfei Cai Bohan Zhuang MQ 27 24 0 24 Nov 2021
Mesa: A Memory-saving Training Framework for Transformers Zizheng Pan Peng Chen Haoyu He Jing Liu Jianfei Cai Bohan Zhuang 23 20 0 22 Nov 2021
IntraQ: Learning Synthetic Images with Intra-Class Heterogeneity for Zero-Shot Network Quantization Yunshan Zhong Mingbao Lin Gongrui Nan Jianzhuang Liu Baochang Zhang Yonghong Tian Rongrong Ji MQ 40 71 0 17 Nov 2021
Wideband and Entropy-Aware Deep Soft Bit Quantization Marius Arvinte Jonathan I. Tamir MQ 16 0 0 18 Oct 2021
2-in-1 Accelerator: Enabling Random Precision Switch for Winning Both Adversarial Robustness and Efficiency Yonggan Fu Yang Katie Zhao Qixuan Yu Chaojian Li Yingyan Lin AAML 44 12 0 11 Sep 2021
Elastic Significant Bit Quantization and Acceleration for Deep Neural Networks Cheng Gong Ye Lu Kunpeng Xie Zongming Jin Tao Li Yanzhi Wang MQ 25 7 0 08 Sep 2021
Quantized Convolutional Neural Networks Through the Lens of Partial Differential Equations Ido Ben-Yair Gil Ben Shalom Moshe Eliasof Eran Treister MQ 18 5 0 31 Aug 2021
Greenformers: Improving Computation and Memory Efficiency in Transformer Models via Low-Rank Approximation Samuel Cahyawijaya 26 12 0 24 Aug 2021
Piggyback GAN: Efficient Lifelong Learning for Image Conditioned Generation Mengyao Zhai Lei Chen Jiawei He Megha Nawhal Frederick Tung Greg Mori CLL 32 27 0 24 Apr 2021
InstantNet: Automated Generation and Deployment of Instantaneously Switchable-Precision Networks Yonggan Fu Zhongzhi Yu Yongan Zhang Yifan Jiang Chaojian Li Yongyuan Liang Mingchao Jiang Zhangyang Wang Yingyan Lin 20 3 0 22 Apr 2021
Differentiable Model Compression via Pseudo Quantization Noise Alexandre Défossez Yossi Adi Gabriel Synnaeve DiffM MQ 15 47 0 20 Apr 2021
Training Multi-bit Quantized and Binarized Networks with A Learnable Symmetric Quantizer Phuoc Pham J. Abraham Jaeyong Chung MQ 33 11 0 01 Apr 2021
Learnable Companding Quantization for Accurate Low-bit Neural Networks Kohei Yamamoto MQ 36 63 0 12 Mar 2021
An Information-Theoretic Justification for Model Pruning Berivan Isik Tsachy Weissman Albert No 84 35 0 16 Feb 2021
Pruning and Quantization for Deep Neural Network Acceleration: A Survey Tailin Liang C. Glossner Lei Wang Shaobo Shi Xiaotong Zhang MQ 130 673 0 24 Jan 2021
Direct Quantization for Training Highly Accurate Low Bit-width Deep Neural Networks Ziquan Liu Wuguannan Yao Qiao Li Antoni B. Chan MQ 22 9 0 26 Dec 2020
FantastIC4: A Hardware-Software Co-Design Approach for Efficiently Running 4bit-Compact Multilayer Perceptrons Simon Wiedemann Suhas Shivapakash P. Wiedemann Daniel Becking Wojciech Samek F. Gerfers Thomas Wiegand MQ 18 7 0 17 Dec 2020
Mix and Match: A Novel FPGA-Centric Deep Neural Network Quantization Framework Sung-En Chang Yanyu Li Mengshu Sun Runbin Shi Hayden Kwok-Hay So Xuehai Qian Yanzhi Wang Xue Lin MQ 18 82 0 08 Dec 2020
Bringing AI To Edge: From Deep Learning's Perspective Di Liu Hao Kong Xiangzhong Luo Weichen Liu Ravi Subramaniam 52 116 0 25 Nov 2020
High-Capacity Expert Binary Networks Adrian Bulat Brais Martínez Georgios Tzimiropoulos MQ 24 57 0 07 Oct 2020