Deep Fusion: Efficient Network Training via Pre-trained Initializations

20 June 2023

Papers citing "Deep Fusion: Efficient Network Training via Pre-trained Initializations"

2 / 2 papers shown

Title
On the Transformer Growth for Progressive BERT Training Xiaotao Gu Liyuan Liu Hongkun Yu Jing Li C. L. P. Chen Jiawei Han VLM 61 49 0 23 Oct 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 217 3,054 0 23 Jan 2020