Gradient Multi-Normalization for Stateless and Scalable LLM Training

10 February 2025

Papers citing "Gradient Multi-Normalization for Stateless and Scalable LLM Training"

1 / 1 papers shown

Title
Deconstructing What Makes a Good Optimizer for Language Models Rosie Zhao Depen Morwani David Brandfonbrener Nikhil Vyas Sham Kakade 188 28 0 10 Jul 2024