Mimose: An Input-Aware Checkpointing Planner for Efficient Training on
GPU

Mimose: An Input-Aware Checkpointing Planner for Efficient Training on GPU

6 September 2022

Zicheng Zhang

Papers citing "Mimose: An Input-Aware Checkpointing Planner for Efficient Training on GPU"

5 / 5 papers shown

Title
Rockmate: an Efficient, Fast, Automatic and Generic Tool for Re-materialization in PyTorch Xunyi Zhao Théotime Le Hellard Lionel Eyraud Julia Gusak Olivier Beaumont 22 6 0 03 Jul 2023
XEngine: Optimal Tensor Rematerialization for Neural Networks in Heterogeneous Environments Manuela Schuler Richard Membarth P. Slusallek 19 4 0 19 Dec 2022
Big Bird: Transformers for Longer Sequences Manzil Zaheer Guru Guruganesh Kumar Avinava Dubey Joshua Ainslie Chris Alberti ... Philip Pham Anirudh Ravula Qifan Wang Li Yang Amr Ahmed VLM 251 2,012 0 28 Jul 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 226 4,453 0 23 Jan 2020
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,943 0 20 Apr 2018