FlexQuant: Elastic Quantization Framework for Locally Hosted LLM on Edge Devices

13 January 2025

Papers citing "FlexQuant: Elastic Quantization Framework for Locally Hosted LLM on Edge Devices"

3 / 3 papers shown

Title
Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency E. J. Husom Arda Goknil Merve Astekin Lwin Khin Shar Andre Kåsen S. Sen Benedikt Andreas Mithassel Ahmet Soylu MQ 43 0 0 04 Apr 2025
Debt Collection Negotiations with Large Language Models: An Evaluation System and Optimizing Decision Making with Multi-Agent Xiaofeng Wang Z. Zhang Jinguang Zheng Yiming Ai Rui Wang 45 1 0 25 Feb 2025
LowRA: Accurate and Efficient LoRA Fine-Tuning of LLMs under 2 Bits Zikai Zhou Qizheng Zhang Hermann Kumbong Kunle Olukotun MQ 244 0 0 12 Feb 2025