QUIDAM: A Framework for Quantization-Aware DNN Accelerator and Model Co-Exploration

30 June 2022

Papers citing "QUIDAM: A Framework for Quantization-Aware DNN Accelerator and Model Co-Exploration"

2 / 2 papers shown

Title
Oaken: Fast and Efficient LLM Serving with Online-Offline Hybrid KV Cache Quantization Minsu Kim Seongmin Hong RyeoWook Ko S. Choi Hunjong Lee Junsoo Kim J. Kim Jongse Park 57 0 0 24 Mar 2025
Rethinking Co-design of Neural Architectures and Hardware Accelerators Yanqi Zhou Xuanyi Dong Berkin Akin Mingxing Tan Daiyi Peng Tianjian Meng Amir Yazdanbakhsh Da Huang Ravi Narayanaswami James Laudon 52 26 0 17 Feb 2021