Combining learning rate decay and weight decay with complexity gradient descent - Part I

7 February 2019

Papers citing "Combining learning rate decay and weight decay with complexity gradient descent - Part I"

2 / 2 papers shown

Title
Adaptive Regularization via Residual Smoothing in Deep Learning Optimization Jung-Kyun Cho Junseok Kwon Byung-Woo Hong 26 1 0 23 Jul 2019
A disciplined approach to neural network hyper-parameters: Part 1 -- learning rate, batch size, momentum, and weight decay L. Smith 202 1,019 0 26 Mar 2018