Efficient Strong Scaling Through Burst Parallel Training

19 December 2021

Papers citing "Efficient Strong Scaling Through Burst Parallel Training"

2 / 2 papers shown

Title
MuxFlow: Efficient and Safe GPU Sharing in Large-Scale Production Deep Learning Clusters Yihao Zhao Xin Liu Shufan Liu Xiang Li Yibo Zhu Gang Huang Xuanzhe Liu Xin Jin 27 11 0 24 Mar 2023
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism M. Shoeybi M. Patwary Raul Puri P. LeGresley Jared Casper Bryan Catanzaro MoE 245 1,817 0 17 Sep 2019