STEP: Staged Parameter-Efficient Pre-training for Large Language Models

5 April 2025

Papers citing "STEP: Staged Parameter-Efficient Pre-training for Large Language Models"

1 / 1 papers shown

Title
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 220 3,054 0 23 Jan 2020