Sequence-Level Knowledge Distillation

25 June 2016

Papers citing "Sequence-Level Knowledge Distillation"

27 / 177 papers shown

Title
Hint-Based Training for Non-Autoregressive Machine Translation Zhuohan Li Zi Lin Di He Fei Tian Tao Qin Liwei Wang Tie-Yan Liu 15 72 0 15 Sep 2019
Evaluating Explanation Without Ground Truth in Interpretable Machine Learning Fan Yang Mengnan Du Xia Hu XAI ELM 19 66 0 16 Jul 2019
BAM! Born-Again Multi-Task Networks for Natural Language Understanding Kevin Clark Minh-Thang Luong Urvashi Khandelwal Christopher D. Manning Quoc V. Le 19 228 0 10 Jul 2019
Sharing Attention Weights for Fast Transformer Tong Xiao Yinqiao Li Jingbo Zhu Zhengtao Yu Tongran Liu 17 50 0 26 Jun 2019
Sequence Generation: From Both Sides to the Middle Long Zhou Jiajun Zhang Chengqing Zong Heng Yu 9 22 0 23 Jun 2019
Scalable Syntax-Aware Language Models Using Knowledge Distillation A. Kuncoro Chris Dyer Laura Rimell S. Clark Phil Blunsom 25 26 0 14 Jun 2019
Unified Semantic Parsing with Weak Supervision Priyanka Agrawal Parag Jain Ayushi Dalmia Abhishek Bansal Ashish R. Mittal Karthik Sankaranarayanan 20 10 0 12 Jun 2019
KERMIT: Generative Insertion-Based Modeling for Sequences William Chan Nikita Kitaev Kelvin Guu Mitchell Stern Jakob Uszkoreit VLM 15 65 0 04 Jun 2019
Levenshtein Transformer Jiatao Gu Changhan Wang Jake Zhao 15 359 0 27 May 2019
Conditional Teacher-Student Learning Zhong Meng Jinyu Li Yong Zhao Y. Gong 14 90 0 28 Apr 2019
Benchmarking Approximate Inference Methods for Neural Structured Prediction Lifu Tu Kevin Gimpel BDL 27 17 0 01 Apr 2019
Distilling Task-Specific Knowledge from BERT into Simple Neural Networks Raphael Tang Yao Lu Linqing Liu Lili Mou Olga Vechtomova Jimmy J. Lin 13 417 0 28 Mar 2019
Multilingual Neural Machine Translation with Knowledge Distillation Xu Tan Yi Ren Di He Tao Qin Zhou Zhao Tie-Yan Liu 16 248 0 27 Feb 2019
Sequence-Level Knowledge Distillation for Model Compression of Attention-based Sequence-to-Sequence Speech Recognition Raden Muáz Muním Nakamasa Inoue K. Shinoda 14 25 0 12 Nov 2018
Semi-Supervised Sequence Modeling with Cross-View Training Kevin Clark Minh-Thang Luong Christopher D. Manning Quoc V. Le SSL 6 333 0 22 Sep 2018
Ranking Distillation: Learning Compact Ranking Models With High Performance for Recommender System Jiaxi Tang Ke Wang 11 182 0 19 Sep 2018
Attention-Guided Answer Distillation for Machine Reading Comprehension Minghao Hu Yuxing Peng Furu Wei Zhen Huang Dongsheng Li Nan Yang M. Zhou FaML 13 75 0 23 Aug 2018
Triangular Architecture for Rare Language Translation Shuo Ren Wenhu Chen Shujie Liu Mu Li M. Zhou Shuai Ma 21 33 0 13 May 2018
Born Again Neural Networks Tommaso Furlanello Zachary Chase Lipton Michael Tschannen Laurent Itti Anima Anandkumar 8 1,020 0 12 May 2018
Parsing Tweets into Universal Dependencies Yijia Liu Yi Zhu Wanxiang Che Bing Qin Nathan Schneider Noah A. Smith 11 74 0 23 Apr 2018
A Teacher-Student Framework for Zero-Resource Neural Machine Translation Yun Chen Yang Liu Yong Cheng V. Li 22 147 0 02 May 2017
Boosting Neural Machine Translation Dakun Zhang Jungi Kim Josep Crego Jean Senellart AI4CE 13 26 0 19 Dec 2016
Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling Zhe Gan Chunyuan Li Changyou Chen Yunchen Pu Qinliang Su Lawrence Carin BDL UQCV 34 41 0 23 Nov 2016
SYSTRAN's Pure Neural Machine Translation Systems Josep Crego Jungi Kim Guillaume Klein Anabel Rebollo Kathy Yang ... Bo Wang Jin Yang Dakun Zhang Jing Zhou Peter Zoldan 28 125 0 18 Oct 2016
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,740 0 26 Sep 2016
Distilling an Ensemble of Greedy Dependency Parsers into One MST Parser A. Kuncoro Miguel Ballesteros Lingpeng Kong Chris Dyer Noah A. Smith MoE 8 77 0 24 Sep 2016
Effective Approaches to Attention-based Neural Machine Translation Thang Luong Hieu H. Pham Christopher D. Manning 214 7,923 0 17 Aug 2015