v1v2v3 (latest)

TRANSOM: An Efficient Fault-Tolerant System for Training LLMs

16 October 2023

Shigang Li

Papers citing "TRANSOM: An Efficient Fault-Tolerant System for Training LLMs"

9 / 9 papers shown

BitSnap: Checkpoint Sparsification and Quantization in LLM Training

321

15 Nov 2025

xLLM Technical Report

...

142

16 Oct 2025

FlashRecovery: Fast and Low-Cost Recovery from Failures for Large-Scale Training of LLMs

...

132

03 Sep 2025

MoC-System: Efficient Fault Tolerance for Sparse Mixture-of-Experts Model TrainingInternational Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS), 2024

188

08 Aug 2024

Efficient Training of Large Language Models on Distributed Infrastructures: A Survey

...

Dahua Lin

Yonggang Wen

Xin Jin

Tianwei Zhang

Yang Liu

363

29 Jul 2024

DataStates-LLM: Lazy Asynchronous Checkpointing for Large Language Models

226

15 Jun 2024

Unicron: Economizing Self-Healing LLM Training at Scale

Jingren Zhou

215

30 Dec 2023

MRFI: An Open Source Multi-Resolution Fault Injection Framework for Neural Network Processing

142

20 Jun 2023

TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed Machine LearningMicro (MICRO), 2023

272

11 Apr 2023