Title
Range Asymmetric Numeral Systems-Based Lightweight Intermediate Feature Compression for Split Computing of Deep Neural Networks Mingyu Sung Suhwan Im Vikas Palakonda Jae-Mo Kang 52 0 0 11 Nov 2025
P3-LLM: An Integrated NPU-PIM Accelerator for LLM Inference Using Hybrid Numerical Formats Yuzong Chen Chao Fang Xilai Dai Yuheng Wu Thierry Tambe Marian Verhelst Mohamed S. Abdelfattah 159 0 0 10 Nov 2025
DartQuant: Efficient Rotational Distribution Calibration for LLM Quantization Yuantian Shao Yuanteng Chen Peisong Wang Jianlin Yu Jing Lin Yiwu Yao Zhihui Wei Jian Cheng MQ 172 0 0 06 Nov 2025
Memory- and Latency-Constrained Inference of Large Language Models via Adaptive Split Computing Mingyu Sung Vikas Palakonda Suhwan Im Sunghwan Moon Il-Min Kim Sangseok Yun Jae-Mo Kang MQ 327 0 0 06 Nov 2025
KV Cache Transform Coding for Compact Storage in LLM Inference Konrad Staniszewski Adrian Łańcucki VLM 216 0 0 03 Nov 2025
FlashEVA: Accelerating LLM inference via Efficient Attention Juan Gabriel Kostelec Qinghai Guo 73 0 0 01 Nov 2025
Energy-Efficient and Dequantization-Free Q-LLMs: A Spiking Neural Network Approach to Salient Value Mitigation Chenyu Wang Zhanglu Yan Zhi Zhou Xu Chen Weng-Fai Wong MQ 116 0 0 22 Oct 2025
DynaKV: Enabling Accurate and Efficient Long-Sequence LLM Decoding on Smartphones Tuowei Wang Minxing Huang Fengzu Li Ligeng Chen Jinrui Zhang Ju Ren 134 1 0 20 Oct 2025
Mixed-Precision Quantization for Language Models: Techniques and Prospects M. Rakka Marios Fournarakis Olga Krestinskaya Jinane Bazzi K. Salama Fadi J. Kurdahi A. Eltawil M. Fouda MQ 139 0 0 19 Oct 2025
FraQAT: Quantization Aware Training with Fractional bits Luca Morreale Alberto Gil C. P. Ramos Malcolm Chadwick Mehid Noroozi Ruchika Chavhan Abhinav Mehrotra S. Bhattacharya MQ 137 0 0 16 Oct 2025
Nondeterminism-Aware Optimistic Verification for Floating-Point Neural Networks Jianzhu Yao Hongxu Su Taobo Liao Zerui Cheng Huan Zhang Xuechao Wang Pramod Viswanath 52 0 0 15 Oct 2025
SPAD: Specialized Prefill and Decode Hardware for Disaggregated LLM Inference Hengrui Zhang Pratyush Patel August Ning D. Wentzlaff MoE 73 1 0 09 Oct 2025
FlexiQ: Adaptive Mixed-Precision Quantization for Latency/Accuracy Trade-Offs in Deep Neural Networks Jaemin Kim Hongjun Um Sungkyun Kim Yongjun Park Jiwon Seo MQ 105 0 0 03 Oct 2025
Rearchitecting Datacenter Lifecycle for AI: A TCO-Driven Framework Jovan Stojkovic Chaojie Zhang Íñigo Goiri Ricardo Bianchini 60 0 0 30 Sep 2025
Layer-wise dynamic rank for compressing large language models Zhendong Mi Bian Sun Grace Li Zhang Shaoyi Huang ALM 116 0 0 30 Sep 2025
Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization Vage Egiazarian Roberto L. Castro Denis Kuznedelev Andrei Panferov Eldar Kurtic ... Alexandre Marques Mark Kurtz Saleh Ashkboos Torsten Hoefler Dan Alistarh MQ 184 1 0 27 Sep 2025
LiquidGEMM: Hardware-Efficient W4A8 GEMM Kernel for High-Performance LLM Serving Huanqi Hu Bowen Xiao Shixuan Sun Jianian Yin Zhexi Zhang ... Chengquan Jiang Weiqi Xu Xiaoying Jia Xin Liu Minyi Guo MQ VLM 70 3 0 01 Sep 2025
APT-LLM: Exploiting Arbitrary-Precision Tensor Core Computing for LLM AccelerationIEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems (TCAD), 2025 Shaobo Ma Chao Fang Haikuo Shao Zhongfeng Wang 56 0 0 26 Aug 2025
Quantized but Deceptive? A Multi-Dimensional Truthfulness Evaluation of Quantized LLMs Y. Fu Xianxuan Long Runchao Li Haotian Yu Mu Sheng Xiaotian Han Yu Yin Pan Li HILM 85 4 0 26 Aug 2025
MoEcho: Exploiting Side-Channel Attacks to Compromise User Privacy in Mixture-of-Experts LLMs Ruyi Ding Tianhong Xu Xinyi Shen A. A. Ding Yunsi Fei MoE AAML 96 2 0 20 Aug 2025
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs Haokun Lin Haobo Xu Yichen Wu Ziyu Guo Renrui Zhang Zhichao Lu Ying Wei Gang Qu Zhenan Sun DiffM MQ 90 7 0 20 Aug 2025
FlexQ: Efficient Post-training INT6 Quantization for LLM Serving via Algorithm-System Co-Design Hao Zhang Aining Jia Weifeng Bu Y. Cai Kai Sheng Hao Chen Xin He MQ 90 0 0 06 Aug 2025
KLLM: Fast LLM Inference with K-Means Quantization Xueying Wu Baijun Zhou Zhihui Gao Yuzhe Fu Qilin Zheng Yintao He Hai Helen Li MQ 175 0 0 30 Jul 2025
A Comprehensive Evaluation on Quantization Techniques for Large Language Models Yutong Liu Cairong Zhao Guosheng Hu MQ 143 0 0 23 Jul 2025
CompLeak: Deep Learning Model Compression Exacerbates Privacy Leakage Na Li Yansong Gao Hongsheng Hu Boyu Kuang Anmin Fu 148 0 0 22 Jul 2025
RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference Emmanouil Benetos Jiawei Zhang Baotong Lu Qianxi Zhang Chengruidong Zhang ... Chen Chen Mingxing Zhang Yuqing Yang Fan Yang Mao Yang 235 3 0 01 Jul 2025
MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware ExpertsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Wei Tao Haocheng Lu Xiaoyang Qu Bin Zhang Kai Lu Jiguang Wan Jianzong Wang MQ MoE 181 3 0 09 Jun 2025
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration Xianglong Yan Zhiteng Li Tianao Zhang Linghe Kong Yulun Zhang Yulun Zhang Yunbo Wang 291 3 0 30 May 2025
AnchorAttention: Difference-Aware Sparse Attention with Stripe Granularity Yu Zhang Dong Guo Fang Wu Guoliang Zhu Dian Ding Yiming Zhang 216 1 0 29 May 2025
Learning Interpretable Differentiable Logic Networks for Tabular Regression C. Yue N. Jha 303 1 0 29 May 2025
FireQ: Fast INT4-FP8 Kernel and RoPE-aware Quantization for LLM Inference Acceleration Daehyeon Baek Jieun Choi Jimyoung Son Kyungmin Bin Seungbeom Choi Kihyo Moon Minsung Jang Hyojung Lee MQ 181 0 0 27 May 2025
Win Fast or Lose Slow: Balancing Speed and Accuracy in Latency-Sensitive Decisions of LLMs Hao Kang Qingru Zhang Han Cai Weiyuan Xu Tushar Krishna Yilun Du Tsachy Weissman 190 2 0 26 May 2025
Efficient and Workload-Aware LLM Serving via Runtime Layer Swapping and KV Cache Resizing Zhaoyuan Su Tingfeng Lan Zirui Wang Juncheng Yang Yue Cheng 164 1 0 24 May 2025
Model-Distributed Inference for Large Language Models at the EdgeIEEE Workshop on Local and Metropolitan Area Networks (LAN/MAN), 2025 Davide Macario H. Seferoglu Erdem Koyuncu 177 2 0 13 May 2025
Turning LLM Activations Quantization-FriendlyInternational Symposium on Applied Computational Intelligence and Informatics (SACI), 2025 Patrik Czakó Gábor Kertész Sándor Szénási MQ 92 1 0 11 May 2025
MxMoE: Mixed-precision Quantization for MoE with Accuracy and Performance Co-Design Haojie Duanmu Xiuhong Li Zhihang Yuan Size Zheng Jiangfei Duan Xingcheng Zhang Dahua Lin MQ MoE 850 7 0 09 May 2025
Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions Yiming Du Wenyu Huang Danna Zheng Zhaowei Wang Sébastien Montella Mirella Lapata Kam-Fai Wong Jeff Z. Pan KELM MU 549 16 0 01 May 2025
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics Cong Xu Wenbin Liang Mo Yu Anan Liu Jianchao Tan Lizhuang Ma Jiangming Wang Jun Wang Weinan Zhang Wei Zhang MQ 272 0 0 01 May 2025
Taming the Titans: A Survey of Efficient LLM Inference Serving Ranran Zhen Junlin Li Yixin Ji Zhiyong Yang Tong Liu Qingrong Xia Xinyu Duan Zehao Wang Baoxing Huai Hao Fei LLMAG 333 6 0 28 Apr 2025
FGMP: Fine-Grained Mixed-Precision Weight and Activation Quantization for Hardware-Accelerated LLM Inference Coleman Hooper Charbel Sakr Ben Keller Rangharajan Venkatesan Kurt Keutzer Siyang Song Brucek Khailany MQ 237 1 0 19 Apr 2025
HELIOS: Adaptive Model And Early-Exit Selection for Efficient LLM Inference Serving Avinash Kumar Shashank Nag Jason Clemons L. John Poulami Das 360 0 0 14 Apr 2025
MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints Yichao Yuan Lin Ma Nishil Talati MoE 237 1 0 12 Apr 2025
GPT Carry-On: Training Foundation Model for Customization Could Be Simple, Scalable and Affordable Jianqiao Wangni 104 0 0 10 Apr 2025
Achieving binary weight and activation for LLMs using Post-Training QuantizationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Siqing Song Chuang Wang Ruiqi Wang Yi Yang Xuyao Zhang MQ 350 0 0 07 Apr 2025
SQuat: Subspace-orthogonal KV Cache Quantization Hao Wang Ligong Han Kai Xu Akash Srivastava MQ 269 2 0 31 Mar 2025
Cocktail: Chunk-Adaptive Mixed-Precision Quantization for Long-Context LLM InferenceDesign, Automation and Test in Europe (DATE), 2025 Wei Tao Bin Zhang Xiaoyang Qu Jiguang Wan Jianzong Wang 306 3 0 30 Mar 2025
Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models Hung-Yueh Chiang Chi-chih Chang N. Frumkin Kai-Chiang Wu Mohamed S. Abdelfattah Diana Marculescu MQ 972 2 0 28 Mar 2025
Exploring the Roles of Large Language Models in Reshaping Transportation Systems: A Survey, Framework, and Roadmap Tong Nie Jian Sun Wei Ma 447 16 0 27 Mar 2025
MoQa: Rethinking MoE Quantization with Multi-stage Data-model Distribution Awareness Zihao Zheng Xiuping Cui Size Zheng Maoliang Li Jiayu Chen Yun Liang Xiang Chen MQ MoE 232 1 0 27 Mar 2025
BitDecoding: Unlocking Tensor Cores for Long-Context LLMs with Low-Bit KV Cache Dayou Du Shijie Cao Jianyi Cheng Ting Cao M. Yang Mao Yang MQ 770 3 0 24 Mar 2025

All Papers

Atom: Low-bit Quantization for Efficient and Accurate LLM Serving

Papers citing "Atom: Low-bit Quantization for Efficient and Accurate LLM Serving"