Layer-wise Regularized Dropout for Neural Language Models

26 February 2024

Min Yang

Ruifeng Xu

Xiping Hu

Papers citing "Layer-wise Regularized Dropout for Neural Language Models"

2 / 2 papers shown

Title
FreeLB: Enhanced Adversarial Training for Natural Language Understanding Chen Zhu Yu Cheng Zhe Gan S. Sun Tom Goldstein Jingjing Liu AAML 223 437 0 25 Sep 2019
On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima N. Keskar Dheevatsa Mudigere J. Nocedal M. Smelyanskiy P. T. P. Tang ODL 281 2,888 0 15 Sep 2016