Cephalo: Harnessing Heterogeneous GPU Clusters for Training Transformer Models

1 November 2024

Papers citing "Cephalo: Harnessing Heterogeneous GPU Clusters for Training Transformer Models"

1 / 1 papers shown

Title
HeterMoE: Efficient Training of Mixture-of-Experts Models on Heterogeneous GPUs Yongji Wu Xueshen Liu Shuowei Jin Ceyu Xu Feng Qian Ziming Mao Matthew Lentz Danyang Zhuo Ion Stoica MoMe MoE 59 0 0 04 Apr 2025