MADA: Meta-Adaptive Optimizers through hyper-gradient Descent

17 January 2024

Papers citing "MADA: Meta-Adaptive Optimizers through hyper-gradient Descent"

3 / 3 papers shown

Title
Stochastic Rounding for LLM Training: Theory and Practice Kaan Ozkara Tao Yu Youngsuk Park 31 0 0 27 Feb 2025
A Simple Convergence Proof of Adam and Adagrad Alexandre Défossez Léon Bottou Francis R. Bach Nicolas Usunier 56 143 0 05 Mar 2020
Forward and Reverse Gradient-Based Hyperparameter Optimization Luca Franceschi Michele Donini P. Frasconi Massimiliano Pontil 112 404 0 06 Mar 2017