Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy

20 December 2023

Papers citing "Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy"

6 / 6 papers shown

Title
Scaling Laws for Speculative Decoding Siyuan Yan Mo Zhu Guo-qing Jiang Jianfei Wang Jiaxing Chen ... Xiang Liao Xiao Cui Chen Zhang Zhuoran Song Ran Zhu LRM 33 0 0 08 May 2025
Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding Yunjia Xi Hangyu Wang Bo Chen Jianghao Lin Menghui Zhu W. Liu Ruiming Tang Zhewei Wei W. Zhang Yong Yu OffRL 84 4 0 11 Aug 2024
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes Lokesh Nagalapatti Chun-Liang Li Chih-Kuan Yeh Hootan Nakhost Yasuhisa Fujii Alexander Ratner Ranjay Krishna Chen-Yu Lee Tomas Pfister ALM 204 498 0 03 May 2023
GLM-130B: An Open Bilingual Pre-trained Model Aohan Zeng Xiao Liu Zhengxiao Du Zihan Wang Hanyu Lai ... Jidong Zhai Wenguang Chen Peng-Zhen Zhang Yuxiao Dong Jie Tang BDL LRM 240 1,070 0 05 Oct 2022
Lossless Acceleration for Seq2seq Generation with Aggressive Decoding Tao Ge Heming Xia Xin Sun Si-Qing Chen Furu Wei 82 18 0 20 May 2022
Non-Autoregressive Translation with Layer-Wise Prediction and Deep Supervision Chenyang Huang Hao Zhou Osmar R. Zaïane Lili Mou Lei Li 92 59 0 14 Oct 2021