Primer: Searching for Efficient Transformers for Language Modeling

17 September 2021

Papers citing "Primer: Searching for Efficient Transformers for Language Modeling"

5 / 5 papers shown

Title
Don't be lazy: CompleteP enables compute-efficient deep transformers Nolan Dey Bin Claire Zhang Lorenzo Noci Mufan Bill Li Blake Bordelon Shane Bergsma C. Pehlevan Boris Hanin Joel Hestness 30 99 0 02 May 2025
Carbon Emissions and Large Neural Network Training David A. Patterson Joseph E. Gonzalez Quoc V. Le Chen Liang Lluís-Miquel Munguía D. Rothchild David R. So Maud Texier J. Dean AI4CE 227 491 0 21 Apr 2021
Making Pre-trained Language Models Better Few-shot Learners Tianyu Gao Adam Fisch Danqi Chen 233 1,649 0 31 Dec 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 217 3,054 0 23 Jan 2020
Efficient Multi-objective Neural Architecture Search via Lamarckian Evolution T. Elsken J. H. Metzen Frank Hutter 104 476 0 24 Apr 2018