Learning by Turning: Neural Architecture Aware Optimisation

Learning by Turning: Neural Architecture Aware Optimisation

14 February 2021

Yang Liu

Jeremy Bernstein

Papers citing "Learning by Turning: Neural Architecture Aware Optimisation"

7 / 7 papers shown

Title
Deconstructing What Makes a Good Optimizer for Language Models Rosie Zhao Depen Morwani David Brandfonbrener Nikhil Vyas Sham Kakade 42 17 0 10 Jul 2024
Analyzing and Improving the Training Dynamics of Diffusion Models Tero Karras M. Aittala J. Lehtinen Janne Hellsten Timo Aila S. Laine 23 150 0 05 Dec 2023
Multiplicative update rules for accelerating deep learning training and increasing robustness Manos Kirtas Nikolaos Passalis Anastasios Tefas AAML OOD 18 2 0 14 Jul 2023
Soft Augmentation for Image Classification Yang Liu Shen Yan Laura Leal-Taixé James Hays Deva Ramanan 10 11 0 09 Nov 2022
Investigating Generalization by Controlling Normalized Margin Alexander R. Farhang Jeremy Bernstein Kushal Tirumala Yang Liu Yisong Yue 15 6 0 08 May 2022
Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer Greg Yang J. E. Hu Igor Babuschkin Szymon Sidor Xiaodong Liu David Farhi Nick Ryder J. Pachocki Weizhu Chen Jianfeng Gao 15 148 0 07 Mar 2022
On the distance between two neural networks and the stability of learning Jeremy Bernstein Arash Vahdat Yisong Yue Ming-Yu Liu ODL 190 57 0 09 Feb 2020