Fast Transformer Decoding: One Write-Head is All You Need

6 November 2019

ArXiv (abs)PDF HTML HuggingFace (9 upvotes)

Papers citing "Fast Transformer Decoding: One Write-Head is All You Need"

50 / 421 papers shown

Title
gpt-oss-120b & gpt-oss-20b Model Card OpenAI Sandhini Agarwal Lama Ahmad Jason Ai Sam Altman ... D. Sculley Harshit Sikchi Kendal Simon K. Singhal Yang Song LRM VLM 97 199 0 08 Aug 2025
Matrix-Driven Instant Review: Confident Detection and Reconstruction of LLM Plagiarism on PC Ruichong Zhang 144 2 0 08 Aug 2025
Optimal Scheduling Algorithms for LLM Inference: Theory and Practice Agrim Bari Parikshit Hegde G. Veciana 100 0 0 01 Aug 2025
BAR Conjecture: the Feasibility of Inference Budget-Constrained LLM Services with Authenticity and Reasoning Jinan Zhou Rajat Ghosh Vaishnavi Bhargava Debojyoti Dutta Aryan Singhal 140 0 0 31 Jul 2025
Forecasting LLM Inference Performance via Hardware-Agnostic Analytical Modeling Rajeev Patwari Ashish Sirasao Devleena Das 91 2 0 29 Jul 2025
CaliDrop: KV Cache Compression with Calibration Yi Su Quantong Qiu Yuechi Zhou Juntao Li Qingrong Xia Ping Li Xinyu Duan Zhefeng Wang Min Zhang 150 0 0 26 Jul 2025
Modality Agnostic Efficient Long Range Encoder T. Parag Ahmed Elgammal 102 0 0 25 Jul 2025
BucketServe: Bucket-Based Dynamic Batching for Smart and Efficient LLM Inference Serving Wanyi Zheng Minxian Xu Shengye Song Kejiang Ye 98 0 0 23 Jul 2025
The New LLM Bottleneck: A Systems Perspective on Latent Attention and Mixture-of-Experts Sungmin Yun Seonyong Park Hwayong Nam Younjoo Lee Gunjun Lee ... Jongmin Kim Hyungyo Kim Juhwan Cho Seungmin Baek Jung Ho Ahn MoE 151 3 0 21 Jul 2025
Supernova: Achieving More with Less in Transformer Architectures Andrei-Valentin Tanase Elena Pelican 105 0 0 21 Jul 2025
Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation Sangmin Bae Yujin Kim Reza Bayat S. Kim Jiyoun Ha ... Adam Fisch Hrayr Harutyunyan Ziwei Ji Aaron Courville Se-Young Yun MoE 227 21 0 14 Jul 2025
SAS: Simulated Attention Score Chuanyang Zheng J. Sun Yihang Gao Yuehao Wang Peihao Wang ... Atlas Wang Mac Schwager Anderson Schneider Xiaodong Liu Jianfeng Gao AI4TS 132 2 0 10 Jul 2025
BLaST: High Performance Inference and Pretraining using BLock Sparse Transformers Patrik Okanovic Sameer Deshmukh Grzegorz Kwa'sniewski Yi Zhu Haruto Fujii ... Maciej Besta Kentaro Katayama Takumi Honda Yusuke Nagasaka Torsten Hoefler 144 0 0 03 Jul 2025
FinCoT: Grounding Chain-of-Thought in Expert Financial Reasoning Natapong Nitarach Warit Sirichotedumrong Panop Pitchayarthorn Pittawat Taveekitworachai Potsawee Manakul Kunat Pipatanakul ReLM LRM 214 1 0 19 Jun 2025
GTA: Grouped-head latenT Attention Luoyang Sun Cheng Deng Jiwen Jiang Xinjian Wu Haifeng Zhang Lei Chen Lionel M. Ni Ning Yang 129 1 0 15 Jun 2025
QiMeng-Attention: SOTA Attention Operator is generated by SOTA Attention AlgorithmAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Qirui Zhou Shaohui Peng Weiqiang Xiong Haixin Chen Yuanbo Wen ... Ke Gao Ruizhi Chen Yanjun Wu Chen Zhao Yihao Chen LRM 173 2 0 14 Jun 2025
Bridging the Digital Divide: Small Language Models as a Pathway for Physics and Photonics Education in Underdeveloped Regions Asghar Ghorbani Hanieh Fattahi 213 1 0 14 Jun 2025
A Survey of Foundation Models for IoT: Taxonomy and Criteria-Based Analysis Hui Wei Dong Yoon Lee Shubham Rohal Zhizhang Hu Ryan Rossi Shiwei Fang Shijia Pan 229 3 0 13 Jun 2025
Latent Multi-Head Attention for Small Language Models Sushant Mehta Raj Abhijit Dandekar Rajat Dandekar Sreedath Panat RALM 158 2 0 11 Jun 2025
SeerAttention-R: Sparse Attention Adaptation for Long Reasoning Yizhao Gao Shuming Guo Shijie Cao Yuqing Xia Yu Cheng ... Hayden Kwok-Hay So Yu Hua Ting Cao Fan Yang Mao Yang VLM LRM 175 6 0 10 Jun 2025
TaDA: Training-free recipe for Decoding with Adaptive KV Cache Compression and Mean-centering Vinay Joshi Pratik Prabhanjan Brahma Zicheng Liu Emad Barsoum MQ 131 0 0 05 Jun 2025
LittleBit: Ultra Low-Bit Quantization via Latent Factorization Banseok Lee Dongkyu Kim Youngcheon You Youngmin Kim MQ 156 1 0 30 May 2025
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration Xianglong Yan Zhiteng Li Tianao Zhang Linghe Kong Yulun Zhang Yulun Zhang Yunbo Wang 295 3 0 30 May 2025
CLaSp: In-Context Layer Skip for Self-Speculative DecodingAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Longze Chen Renke Shan Huiming Wang Lu Wang Ziqiang Liu Run Luo Jiawei Wang Hamid Alinejad-Rokny Min Yang 113 2 0 30 May 2025
Position: The Future of Bayesian Prediction Is Prior-Fitted Samuel G. Müller Arik Reuter Noah Hollmann David Rügamer Katharina Eggensperger 146 4 0 29 May 2025
From Large AI Models to Agentic AI: A Tutorial on Future Intelligent Communications Feibo Jiang Cunhua Pan Li Dong Kezhi Wang O. Dobre Mérouane Debbah LLMAG AI4TS 341 17 0 28 May 2025
Speculative Decoding Meets Quantization: Compatibility Evaluation and Hierarchical Framework Design Yudi Zhang Weilin Zhao Xu Han Tiejun Zhao Wang Xu Hailong Cao Conghui Zhu MQ 305 1 0 28 May 2025
Hardware-Efficient Attention for Fast Decoding Ted Zadouri Hubert Strauss Tri Dao 273 8 0 27 May 2025
Plug-and-Play Context Feature Reuse for Efficient Masked Generation Xuejie Liu Anji Liu Karen Ullrich Yitao Liang 182 3 0 25 May 2025
Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query Yixuan Wang Shiyu Ji Yijun Liu Yuzhuang Xu Yang Xu Qingfu Zhu Wanxiang Che 338 1 0 24 May 2025
FlashForge: Ultra-Efficient Prefix-Aware Attention for LLM Decoding Zhibin Wang Rui Ning Chao Fang Zhonghui Zhang Xi Lin ... Rong Gu Kun Yang Guihai Chen Sheng Zhong Chen Tian 186 4 0 23 May 2025
Amplify Adjacent Token Differences: Enhancing Long Chain-of-Thought Reasoning with Shift-FFN Yao Xu Mingyu Xu Fangyu Lei Wangtao Sun Xiangrong Zeng Bingning Wang Guang Liu Shizhu He Jun Zhao Kang Liu LRM 194 1 0 22 May 2025
NQKV: A KV Cache Quantization Scheme Based on Normal Distribution Characteristics Zhihang Cai Xingjun Zhang Zhendong Tan Zheng Wei MQ 319 1 0 22 May 2025
SUS backprop: linear backpropagation algorithm for long inputs in transformers Sergey Pankov Georges Harik 238 0 0 21 May 2025
Short-Range Dependency Effects on Transformer Instability and a Decomposed Attention Solution Suvadeep Hajra 216 0 0 21 May 2025
Revealing Language Model Trajectories via Kullback-Leibler Divergence Ryo Kishino Yusuke Takase Momose Oyama Hiroaki Yamagiwa Hidetoshi Shimodaira 236 0 0 21 May 2025
A3 : an Analytical Low-Rank Approximation Framework for Attention Jeffrey T. H. Wong Cheng Zhang Xinye Cao Pedro Gimenes George A. Constantinides Wayne Luk Yiren Zhao OffRL MQ 276 2 0 19 May 2025
Accurate KV Cache Quantization with Outlier Tokens TracingAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Yi Su Yuechi Zhou Quantong Qiu Jilong Li Qingrong Xia Ping Li Xinyu Duan Zhefeng Wang Min Zhang MQ 263 5 0 16 May 2025
Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI ArchitecturesInternational Symposium on Computer Architecture (ISCA), 2025 Chenggang Zhao Chengqi Deng Chong Ruan Damai Dai Huazuo Gao ... Wenfeng Liang Ying He Yun Wang Yuxuan Liu Y. X. Wei MoE 186 29 0 14 May 2025
EntroLLM: Entropy Encoded Weight Compression for Efficient Large Language Model Inference on Edge Devices Arnab Sanyal Gourav Datta Gourav Datta Sandeep P. Chinchali Michael Orshansky MQ 821 1 0 05 May 2025
Small Clips, Big Gains: Learning Long-Range Refocused Temporal Information for Video Super-Resolution Xingyu Zhou Wei Long Jingbo Lu Shiyin Jiang Weiyi You Haifeng Wu Shuhang Gu 208 0 0 04 May 2025
Mixture of Sparse Attention: Content-Based Learnable Sparse Attention via Expert-Choice Routing Piotr Piekos Róbert Csordás Jürgen Schmidhuber MoE VLM 510 7 0 01 May 2025
TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate A. Zandieh Majid Daliri Majid Hadian Vahab Mirrokni MQ 229 0 0 28 Apr 2025
Generalized Neighborhood Attention: Multi-dimensional Sparse Attention at the Speed of Light Ali Hassani Fengzhe Zhou Aditya Kane Jiannan Huang Chieh-Yun Chen ... Bing Xu Haicheng Wu Wen-mei W. Hwu Xuan Li Humphrey Shi 160 8 0 23 Apr 2025
How Effective are Generative Large Language Models in Performing Requirements Classification? Waad Alhoshan Alessio Ferrari Liping Zhao 147 4 0 23 Apr 2025
Improving the Serving Performance of Multi-LoRA Large Language Models via Efficient LoRA and KV Cache Management Hang Zhang Jiuchen Shi Yixiao Wang Quan Chen Yizhou Shan Minyi Guo 282 1 0 19 Apr 2025
MOM: Memory-Efficient Offloaded Mini-Sequence Inference for Long Context Language Models Junyang Zhang Tianyi Zhu Cheng Luo A. Anandkumar RALM 226 0 0 16 Apr 2025
DeepMLF: Multimodal language model with learnable tokens for deep fusion in sentiment analysis Efthymios Georgiou Vassilis Katsouros Yannis Avrithis Alexandros Potamianos 317 1 0 15 Apr 2025
Accelerating LLM Inference Throughput via Asynchronous KV Cache PrefetchingIEEE Transactions on robotics (IEEE Trans. Robot.), 2024 Yanhao Dong Yubo Miao Weinan Li Xiao Zheng Chao Wang Jiesheng Wu Feng Lyu 119 1 0 08 Apr 2025
SpecPipe: Accelerating Pipeline Parallelism-based LLM Inference with Speculative Decoding Haofei Yin Mengbai Xiao Rouzhou Lu Xiao Zhang Dongxiao Yu Guanghui Zhang AI4CE 270 1 0 05 Apr 2025

All Papers

Fast Transformer Decoding: One Write-Head is All You Need

Papers citing "Fast Transformer Decoding: One Write-Head is All You Need"