Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM

7 October 2023

Papers citing "Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM"

4 / 4 papers shown

Title
DilateQuant: Accurate and Efficient Diffusion Quantization via Weight Dilation Xuewen Liu Zhikai Li Qingyi Gu MQ 19 4 0 22 Sep 2024
Integer Scale: A Free Lunch for Faster Fine-grained Quantization of LLMs Qingyuan Li Ran Meng Yiduo Li Bo Zhang Yifan Lu Yerui Sun Lin Ma Yuchen Xie MQ 33 0 0 23 May 2024
QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving Yujun Lin Haotian Tang Shang Yang Zhekai Zhang Guangxuan Xiao Chuang Gan Song Han 77 71 0 07 May 2024
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 206 2,232 0 22 Mar 2023