Weight Distillation: Transferring the Knowledge in Neural Network
Parameters

Weight Distillation: Transferring the Knowledge in Neural Network Parameters

19 September 2020

Jingbo Zhu

Papers citing "Weight Distillation: Transferring the Knowledge in Neural Network Parameters"

9 / 9 papers shown

Title
Initializing Models with Larger Ones Zhiqiu Xu Yanjie Chen Kirill Vishniakov Yida Yin Zhiqiang Shen Trevor Darrell Lingjie Liu Zhuang Liu 48 17 0 30 Nov 2023
Learning Evaluation Models from Large Language Models for Sequence Generation Chenglong Wang Hang Zhou Kai-Chun Chang Tongran Liu Chunliang Zhang Quan Du Tong Xiao Yue Zhang Jingbo Zhu ELM 60 3 0 08 Aug 2023
Improved Knowledge Distillation for Pre-trained Language Models via Knowledge Selection Chenglong Wang Yi Lu Yongyu Mu Yimin Hu Tong Xiao Jingbo Zhu 40 8 0 01 Feb 2023
Eliciting Knowledge from Large Pre-Trained Models for Unsupervised Knowledge-Grounded Conversation Yanyang Li Jianqiao Zhao Michael R. Lyu Liwei Wang 31 15 0 03 Nov 2022
Wavelet Knowledge Distillation: Towards Efficient Image-to-Image Translation Linfeng Zhang Xin Chen Xiaobing Tu Pengfei Wan N. Xu Kaisheng Ma 41 63 0 12 Mar 2022
The NiuTrans Machine Translation Systems for WMT21 Yuhao Zhang Tao Zhou Bin Wei Runzhe Cao Yongyu Mu ... Weiqiao Shan Yinqiao Li Bei Li Tong Xiao Jingbo Zhu 37 17 0 22 Sep 2021
The NiuTrans System for the WMT21 Efficiency Task Chenglong Wang Chi Hu Yongyu Mu Zhongxiang Yan Siming Wu ... Hang Cao Bei Li Ye Lin Tong Xiao Jingbo Zhu 34 2 0 16 Sep 2021
Bag of Tricks for Optimizing Transformer Efficiency Ye Lin Yanyang Li Tong Xiao Jingbo Zhu 36 6 0 09 Sep 2021
Learning Light-Weight Translation Models from Deep Transformer Bei Li Ziyang Wang Hui Liu Quan Du Tong Xiao Chunliang Zhang Jingbo Zhu VLM 125 40 0 27 Dec 2020