Gradient Ascent Post-training Enhances Language Model Generalization

Gradient Ascent Post-training Enhances Language Model Generalization

Annual Meeting of the Association for Computational Linguistics (ACL), 2023

12 June 2023

ArXiv (abs)PDF HTML

Papers citing "Gradient Ascent Post-training Enhances Language Model Generalization"

3 / 3 papers shown

Title
RKLD: Reverse KL-Divergence-based Knowledge Distillation for Unlearning Personal Information in Large Language Models Bichen Wang Yuzhe Zi Yixin Sun Yanyan Zhao Bing Qin MU 262 17 0 04 Jun 2024
Digital Forgetting in Large Language Models: A Survey of Unlearning MethodsArtificial Intelligence Review (Artif Intell Rev), 2024 Alberto Blanco-Justicia N. Jebreel Benet Manzanares-Salor David Sánchez Josep Domingo-Ferrer Guillem Collell Kuan Eeik Tan KELM MU 304 38 0 02 Apr 2024
Baby Llama: knowledge distillation from an ensemble of teachers trained on a small dataset with no performance penalty I. Timiryasov J. Tastet 334 72 0 03 Aug 2023