Sparse Distillation: Speeding Up Text Classification by Using Bigger Student Models

16 October 2021

Madian Khabsa

Sinong Wang

Xiang Ren

Papers citing "Sparse Distillation: Speeding Up Text Classification by Using Bigger Student Models"

1 / 1 papers shown

Title
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism M. Shoeybi M. Patwary Raul Puri P. LeGresley Jared Casper Bryan Catanzaro MoE 243 1,791 0 17 Sep 2019