SpinQuant: LLM quantization with learned rotations

21 February 2025

Papers citing "SpinQuant: LLM quantization with learned rotations"

7 / 57 papers shown

Title
BitsFusion: 1.99 bits Weight Quantization of Diffusion Model Yang Sui Yanyu Li Anil Kag Yerlan Idelbayev Junli Cao Ju Hu Dhritiman Sagar Bo Yuan Sergey Tulyakov Jian Ren MQ 28 17 0 06 Jun 2024
ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation Tianchen Zhao Tongcheng Fang Haofeng Huang Enshu Liu Widyadewi Soedarmadji ... Shengen Yan Huazhong Yang Xuefei Ning Xuefei Ning Yu Wang MQ VGen 94 21 0 04 Jun 2024
A Survey on Efficient Inference for Large Language Models Zixuan Zhou Xuefei Ning Ke Hong Tianyu Fu Jiaming Xu ... Shengen Yan Guohao Dai Xiao-Ping Zhang Yuhan Dong Yu-Xiang Wang 40 78 0 22 Apr 2024
An empirical study of LLaMA3 quantization: from LLMs to MLLMs Wei Huang Xingyu Zheng Xudong Ma Haotong Qin Chengtao Lv Hong Chen Jie Luo Xiaojuan Qi Xianglong Liu Michele Magno MQ 47 36 0 22 Apr 2024
QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks Albert Tseng Jerry Chee Qingyao Sun Volodymyr Kuleshov Christopher De Sa MQ 115 91 0 06 Feb 2024
SliceGPT: Compress Large Language Models by Deleting Rows and Columns Saleh Ashkboos Maximilian L. Croci Marcelo Gennari do Nascimento Torsten Hoefler James Hensman VLM 122 143 0 26 Jan 2024
Extreme Compression of Large Language Models via Additive Quantization Vage Egiazarian Andrei Panferov Denis Kuznedelev Elias Frantar Artem Babenko Dan Alistarh MQ 90 87 0 11 Jan 2024