MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation

14 March 2024

Papers citing "MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation"

2 / 2 papers shown

Title
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes Lokesh Nagalapatti Chun-Liang Li Chih-Kuan Yeh Hootan Nakhost Yasuhisa Fujii Alexander Ratner Ranjay Krishna Chen-Yu Lee Tomas Pfister ALM 206 499 0 03 May 2023
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 226 4,453 0 23 Jan 2020