Accelerating Neural Transformer via an Average Attention Network

2 May 2018

Papers citing "Accelerating Neural Transformer via an Average Attention Network"

28 / 28 papers shown

Title
Dual-Pipeline with Low-Rank Adaptation for New Language Integration in Multilingual ASR Yerbolat Khassanov Zhipeng Chen Tianfeng Chen Tze Yuang Chong Wei Li Jun Zhang Lu Lu Yuxuan Wang AI4CE 21 0 0 12 Jun 2024
Summer: WeChat Neural Machine Translation Systems for the WMT22 Biomedical Translation Task Ernan Li Fandong Meng Jie Zhou MedIm 8 1 0 28 Nov 2022
BJTU-WeChat's Systems for the WMT22 Chat Translation Task Yunlong Liang Fandong Meng Jinan Xu Yufeng Chen Jie Zhou 24 2 0 28 Nov 2022
CAB: Comprehensive Attention Benchmarking on Long Sequence Modeling Jinchao Zhang Shuyang Jiang Jiangtao Feng Lin Zheng Lingpeng Kong 3DV 43 9 0 14 Oct 2022
Distributionally Robust Recurrent Decoders with Random Network Distillation Antonio Valerio Miceli Barone Alexandra Birch Rico Sennrich 31 1 0 25 Oct 2021
Bag of Tricks for Optimizing Transformer Efficiency Ye Lin Yanyang Li Tong Xiao Jingbo Zhu 31 6 0 09 Sep 2021
WeChat Neural Machine Translation Systems for WMT21 Xianfeng Zeng Yanjun Liu Ernan Li Qiu Ran Fandong Meng Peng Li Jinan Xu Jie Zhou 25 20 0 05 Aug 2021
A Survey of Transformers Tianyang Lin Yuxin Wang Xiangyang Liu Xipeng Qiu ViT 53 1,088 0 08 Jun 2021
An Efficient Transformer Decoder with Compressed Sub-layers Yanyang Li Ye Lin Tong Xiao Jingbo Zhu 33 29 0 03 Jan 2021
Learning Light-Weight Translation Models from Deep Transformer Bei Li Ziyang Wang Hui Liu Quan Du Tong Xiao Chunliang Zhang Jingbo Zhu VLM 120 40 0 27 Dec 2020
Exploiting Neural Query Translation into Cross Lingual Information Retrieval Liang Yao Baosong Yang Haibo Zhang Weihua Luo Boxing Chen 22 12 0 26 Oct 2020
Query-Key Normalization for Transformers Alex Henry Prudhvi Raj Dachapally S. Pawar Yuxuan Chen 17 75 0 08 Oct 2020
WeChat Neural Machine Translation Systems for WMT20 Fandong Meng Jianhao Yan Yijin Liu Yuan Gao Xia Zeng ... Peng Li Ming Chen Jie Zhou Sifan Liu Hao Zhou 22 21 0 01 Oct 2020
Deep Encoder, Shallow Decoder: Reevaluating Non-autoregressive Machine Translation Jungo Kasai Nikolaos Pappas Hao Peng James Cross Noah A. Smith 38 134 0 18 Jun 2020
Self-Training for End-to-End Speech Translation J. Pino Qiantong Xu Xutai Ma M. Dousti Yun Tang 33 59 0 03 Jun 2020
The Cascade Transformer: an Application for Efficient Answer Sentence Selection Luca Soldaini Alessandro Moschitti 27 44 0 05 May 2020
Multiscale Collaborative Deep Models for Neural Machine Translation Xiangpeng Wei Heng Yu Yue Hu Yue Zhang Rongxiang Weng Weihua Luo 19 28 0 29 Apr 2020
Highway Transformer: Self-Gating Enhanced Self-Attentive Networks Yekun Chai Jin Shuo Xinwen Hou 23 16 0 17 Apr 2020
Fast Transformer Decoding: One Write-Head is All You Need Noam M. Shazeer 19 431 0 06 Nov 2019
Automatically Extracting Challenge Sets for Non local Phenomena in Neural Machine Translation Leshem Choshen Omri Abend 19 18 0 15 Sep 2019
Structure-Invariant Testing for Machine Translation Pinjia He Clara Meister Z. Su 27 104 0 19 Jul 2019
Sharing Attention Weights for Fast Transformer Tong Xiao Yinqiao Li Jingbo Zhu Zhengtao Yu Tongran Liu 17 50 0 26 Jun 2019
Sequence Generation: From Both Sides to the Middle Long Zhou Jiajun Zhang Chengqing Zong Heng Yu 17 22 0 23 Jun 2019
Retrieving Sequential Information for Non-Autoregressive Neural Machine Translation Chenze Shao Yang Feng Jinchao Zhang Fandong Meng Xilin Chen Jie Zhou 19 42 0 22 Jun 2019
A Lightweight Recurrent Network for Sequence Modeling Biao Zhang Rico Sennrich 27 7 0 30 May 2019
Neutron: An Implementation of the Transformer Translation Model and its Variants Hongfei Xu Qiuhui Liu 29 19 0 18 Mar 2019
Context-Aware Self-Attention Networks Baosong Yang Jian Li Derek F. Wong Lidia S. Chao Xing Wang Zhaopeng Tu 36 113 0 15 Feb 2019
Effective Approaches to Attention-based Neural Machine Translation Thang Luong Hieu H. Pham Christopher D. Manning 218 7,926 0 17 Aug 2015