Building a great multi-lingual teacher with sparsely-gated mixture of experts for speech recognition

10 December 2021

Papers citing "Building a great multi-lingual teacher with sparsely-gated mixture of experts for speech recognition"

6 / 6 papers shown

Title
Advancing MoE Efficiency: A Collaboration-Constrained Routing (C2R) Strategy for Better Expert Parallelism Design Mohan Zhang Pingzhi Li Jie Peng Mufan Qiu Tianlong Chen MoE 45 0 0 02 Apr 2025
Tight Clusters Make Specialized Experts Stefan K. Nielsen R. Teo Laziz U. Abdullaev Tan M. Nguyen MoE 66 2 0 21 Feb 2025
MomentumSMoE: Integrating Momentum into Sparse Mixture of Experts R. Teo Tan M. Nguyen MoE 33 3 0 18 Oct 2024
MoEC: Mixture of Expert Clusters Yuan Xie Shaohan Huang Tianyu Chen Furu Wei MoE 40 11 0 19 Jul 2022
Multilingual Speech Recognition using Knowledge Transfer across Learning Processes Rimita Lahiri K. Kumatani Eric Sun Yao Qian 52 6 0 15 Oct 2021
A Configurable Multilingual Model is All You Need to Recognize All Languages Long Zhou Jinyu Li Eric Sun Shujie Liu 92 40 0 13 Jul 2021