DIVISION: Memory Efficient Training via Dual Activation Precision

DIVISION: Memory Efficient Training via Dual Activation Precision

5 August 2022

Ninghao Liu

Papers citing "DIVISION: Memory Efficient Training via Dual Activation Precision"

4 / 4 papers shown

Title
Pre-train and Search: Efficient Embedding Table Sharding with Pre-trained Neural Cost Models Daochen Zha Louis Feng Liangchen Luo Bhargav Bhushanam Zirui Liu ... J. McMahon Yuzhen Huang Bryan Clarke A. Kejariwal Xia Hu 34 7 0 03 May 2023
SurCo: Learning Linear Surrogates For Combinatorial Nonlinear Optimization Problems Aaron Ferber Taoan Huang Daochen Zha M. Schubert Benoit Steiner B. Dilkina Yuandong Tian 33 20 0 22 Oct 2022
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism M. Shoeybi M. Patwary Raul Puri P. LeGresley Jared Casper Bryan Catanzaro MoE 243 1,791 0 17 Sep 2019
Densely Connected Convolutional Networks Gao Huang Zhuang Liu L. V. D. van der Maaten Kilian Q. Weinberger PINN 3DV 244 35,884 0 25 Aug 2016