MixUp Training Leads to Reduced Overfitting and Improved Calibration for the Transformer Architecture

22 February 2021

Papers citing "MixUp Training Leads to Reduced Overfitting and Improved Calibration for the Transformer Architecture"

4 / 4 papers shown

Title
H $_2$ O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models Zhenyu Zhang Ying Sheng Dinesh Manocha Tianlong Chen Lianmin Zheng ... Yuandong Tian Christopher Ré Clark W. Barrett Zhangyang Wang Beidi Chen VLM 189 314 0 24 Jun 2023
Rethinking Confidence Calibration for Failure Prediction Fei Zhu Zhen Cheng Xu-Yao Zhang Cheng-Lin Liu UQCV 91 41 0 06 Mar 2023
Bag of Tricks for In-Distribution Calibration of Pretrained Transformers Jaeyoung Kim Dongbin Na Sungchul Choi Sungbin Lim VLM 85 5 0 13 Feb 2023
Enhancing Cross-lingual Prompting with Dual Prompt Augmentation Meng Zhou Xin Li Yuechun Jiang Lidong Bing LRM 76 6 0 15 Feb 2022