v1v2 (latest)

Fast Inference from Transformers via Speculative Decoding

International Conference on Machine Learning (ICML), 2022

30 November 2022

Yaniv Leviathan

Matan Kalman

Yossi Matias

LRM

ArXiv (abs)PDF HTML HuggingFace (9 upvotes)

Papers citing "Fast Inference from Transformers via Speculative Decoding"

13 / 763 papers shown

Parallel Sampling of Diffusion ModelsNeural Information Processing Systems (NeurIPS), 2023

Dorsa Sadigh

429

25 May 2023

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head CheckpointsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Joshua Ainslie

Sumit Sanghai

400

1,106

22 May 2023

ACRoBat: Optimizing Auto-batching of Dynamic Deep Learning at Compile TimeConference on Machine Learning and Systems (MLSys), 2023

214

17 May 2023

Accelerating Transformer Inference for Translation via Parallel DecodingAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Valentino Maiorca

266

117

17 May 2023

SpecInfer: Accelerating Generative Large Language Model Serving with Tree-based Speculative Inference and VerificationInternational Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS), 2023

...

491

256

16 May 2023

FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance

403

395

09 May 2023

RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment

Wei Xiong

Tong Zhang

463

636

13 Apr 2023

Jump to Conclusions: Short-Cutting Transformers With Linear TransformationsInternational Conference on Language Resources and Evaluation (LREC), 2023

201

16 Mar 2023

Speculative Decoding with Big Little DecoderNeural Information Processing Systems (NeurIPS), 2023

Sehoon Kim

Suhong Moon

447

162

15 Feb 2023

Accelerating Large Language Model Decoding with Speculative Sampling

Charlie Chen

Sebastian Borgeaud

G. Irving

Jean-Baptiste Lespiau

Laurent Sifre

J. Jumper

BDL LRM

330

667

02 Feb 2023

Speculative Decoding: Exploiting Speculative Execution for Accelerating Seq2seq GenerationConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Peiyi Wang

Zhifang Sui

441

136

30 Mar 2022

Pretrained Language Models for Text Generation: A SurveyACM Computing Surveys (ACM CSUR), 2022

519

263

14 Jan 2022

Fast Transformer Decoding: One Write-Head is All You Need

Noam M. Shazeer

599

641

06 Nov 2019