Improving Neural Machine Translation Models with Monolingual Data

20 November 2015

Papers citing "Improving Neural Machine Translation Models with Monolingual Data"

50 / 1,201 papers shown

Title
A Tulu Resource for Machine Translation Manu Narayanan Noemi Aepli 21 2 0 28 Mar 2024
The Impact of Syntactic and Semantic Proximity on Machine Translation with Back-Translation Nicolas Guerin Shane Steinert-Threlkeld Emmanuel Chemla 38 1 0 26 Mar 2024
Towards a Zero-Data, Controllable, Adaptive Dialog System Dirk Vath Lindsey Vanderlyn Ngoc Thang Vu 50 2 0 26 Mar 2024
Enhancing Effectiveness and Robustness in a Low-Resource Regime via Decision-Boundary-aware Data Augmentation Kyohoon Jin Junho Lee Juhwan Choi Sangmin Song Youngbin Kim 40 0 0 22 Mar 2024
Do Not Worry if You Do Not Have Data: Building Pretrained Language Models Using Translationese Meet Doshi Raj Dabre Pushpak Bhattacharyya SyDa 39 2 0 20 Mar 2024
Self-generated Replay Memories for Continual Neural Machine Translation Michele Resta Davide Bacciu CLL 28 2 0 19 Mar 2024
StyleChat: Learning Recitation-Augmented Memory in LLMs for Stylized Dialogue Generation Jinpeng Li Zekai Zhang Quan Tu Xin Cheng Dongyan Zhao Rui Yan 47 2 0 18 Mar 2024
A Novel Paradigm Boosting Translation Capabilities of Large Language Models Jiaxin Guo Hao Yang Zongyao Li Daimeng Wei Hengchao Shang Xiaoyu Chen 47 7 0 18 Mar 2024
Exploring Tokenization Strategies and Vocabulary Sizes for Enhanced Arabic Language Models M. Alrefaie Nour Eldin Morsy Nada Samir 25 6 0 17 Mar 2024
To Err Is Human, but Llamas Can Learn It Too Agnes Luhtaru Taido Purason Martin Vainikko Maksym Del Mark Fishel SyDa ALM 43 2 0 08 Mar 2024
Teaching Large Language Models to Reason with Reinforcement Learning Alex Havrilla Yuqing Du Sharath Chandra Raparthy Christoforos Nalmpantis Jane Dwivedi-Yu Maksym Zhuravinskyi Eric Hambro Sainbayar Sukhbaatar Roberta Raileanu ReLM LRM 37 69 0 07 Mar 2024
Low-Resource Court Judgment Summarization for Common Law Systems Shuaiqi Liu Jiannong Cao Yicong Li Ruosong Yang Zhiyuan Wen ELM AILaw 31 2 0 07 Mar 2024
Data augmentation method for modeling health records with applications to clopidogrel treatment failure detection Sunwoong Choi Samuel Kim 23 2 0 28 Feb 2024
TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages Minsu Kim Jee-weon Jung Hyeongseop Rha Soumi Maiti Siddhant Arora Xuankai Chang Shinji Watanabe Y. Ro 28 7 0 25 Feb 2024
A Machine Learning Approach to Detect Customer Satisfaction From Multiple Tweet Parameters Md Mahmudul Hasan Dr. Shaikh Anowarul Fattah 32 0 0 25 Feb 2024
Prompt Perturbation Consistency Learning for Robust Language Models Yao Qiang Subhrangshu Nandi Ninareh Mehrabi Greg Ver Steeg Anoop Kumar Anna Rumshisky Aram Galstyan 43 6 0 24 Feb 2024
Code Needs Comments: Enhancing Code LLMs with Comment Augmentation Demin Song Honglin Guo Yunhua Zhou Shuhao Xing Yudong Wang ... Wenwei Zhang Qipeng Guo Hang Yan Xipeng Qiu Dahua Lin SyDa 65 8 0 20 Feb 2024
Unsupervised Evaluation of Code LLMs with Round-Trip Correctness Miltiadis Allamanis Sheena Panthaplackel Pengcheng Yin ALM OffRL LRM 43 9 0 13 Feb 2024
Improving Black-box Robustness with In-Context Rewriting Kyle O'Brien Nathan Ng Isha Puri Jorge Mendez Hamid Palangi Yoon Kim Marzyeh Ghassemi Tom Hartvigsen 52 6 0 13 Feb 2024
Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model Ahmet Üstün Viraat Aryabumi Zheng-Xin Yong Wei-Yin Ko Daniel D'souza ... Shayne Longpre Niklas Muennighoff Marzieh Fadaee Julia Kreutzer Sara Hooker ALM ELM SyDa LRM 35 197 0 12 Feb 2024
Unsupervised Sign Language Translation and Generation Zhengsheng Guo Zhiwei He Wenxiang Jiao Xing Wang Rui Wang Kehai Chen Zhaopeng Tu Yong-mei Xu Min Zhang 76 0 0 12 Feb 2024
AutoAugment Is What You Need: Enhancing Rule-based Augmentation Methods in Low-resource Regimes Juhwan Choi Kyohoon Jin Junho Lee Sangmin Song Youngbin Kim 30 1 0 08 Feb 2024
GPTs Are Multilingual Annotators for Sequence Generation Tasks Juhwan Choi Eunju Lee Kyohoon Jin Youngbin Kim 25 10 0 08 Feb 2024
Learning from Teaching Regularization: Generalizable Correlations Should be Easy to Imitate Can Jin Tong Che Hongwu Peng Yiyuan Li Dimitris N. Metaxas Marco Pavone 44 43 0 05 Feb 2024
A Morphologically-Aware Dictionary-based Data Augmentation Technique for Machine Translation of Under-Represented Languages Md Mahfuz Ibn Alam Sina Ahmadi Antonios Anastasopoulos 60 0 0 02 Feb 2024
Non-Fluent Synthetic Target-Language Data Improve Neural Machine Translation Víctor M. Sánchez-Cartagena Miquel Espla-Gomis J. A. Pérez-Ortiz F. Sánchez-Martínez 35 4 0 29 Jan 2024
A Survey on Data Augmentation in Large Model Era Yue Zhou Chenlu Guo Xu Wang Yi-Ju Chang Yuan Wu LM&MA VLM 49 23 0 27 Jan 2024
Importance-Aware Data Augmentation for Document-Level Neural Machine Translation Ming-Ru Wu Yufei Wang George F. Foster Lizhen Qu Gholamreza Haffari 43 6 0 27 Jan 2024
IndiText Boost: Text Augmentation for Low Resource India Languages Onkar Litake Niraj Yagnik S. Labhsetwar VLM 26 3 0 23 Jan 2024
How Far Can 100 Samples Go? Unlocking Overall Zero-Shot Multilingual Translation via Tiny Multi-Parallel Data Di Wu Shaomu Tan Yan Meng David Stap Christof Monz 34 0 0 22 Jan 2024
Machine Translation Models are Zero-Shot Detectors of Translation Direction Michelle Wastl Jannis Vamvas Rico Sennrich VLM 28 0 0 12 Jan 2024
Enhancing Personality Recognition in Dialogue by Data Augmentation and Heterogeneous Conversational Graph Networks Yahui Fu Haiyue Song Tianyu Zhao Tatsuya Kawahara 45 1 0 11 Jan 2024
POMP: Probability-driven Meta-graph Prompter for LLMs in Low-resource Unsupervised Neural Machine Translation Shilong Pan Zhiliang Tian Liang Ding Zhen Huang Zhihua Wen Dongsheng Li 37 2 0 11 Jan 2024
Unsupervised hard Negative Augmentation for contrastive learning Yuxuan Shu Vasileios Lampos 23 1 0 05 Jan 2024
Data-Centric Foundation Models in Computational Healthcare: A Survey Yunkun Zhang Jin Gao Zheling Tan Lingfeng Zhou Kexin Ding Mu Zhou Shaoting Zhang Dequan Wang AI4CE 39 22 0 04 Jan 2024
Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM Xiaoding Lu Zongyi Liu Adian Liusie Vyas Raina Vineet Mudupalli Yuwen Zhang W. Beauchamp 22 15 0 04 Jan 2024
Iterative Mask Filling: An Effective Text Augmentation Method Using Masked Language Modeling Himmet Toprak Kesgin M. Amasyalı 24 7 0 03 Jan 2024
An Empirical study of Unsupervised Neural Machine Translation: analyzing NMT output, model's behavior and sentences' contribution Isidora Chara Tourni Derry Wijaya 40 0 0 19 Dec 2023
Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies Anaelia Ovalle Ninareh Mehrabi Palash Goyal Jwala Dhamala Kai-Wei Chang Richard Zemel Aram Galstyan Yuval Pinter Rahul Gupta 38 10 0 19 Dec 2023
Exploring the Reversal Curse and Other Deductive Logical Reasoning in BERT and GPT-Based Large Language Models Da Wu Jing Yang Kai Wang LRM 26 5 0 06 Dec 2023
AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation J. Choi Se Jin Park Minsu Kim Y. Ro 37 12 0 05 Dec 2023
Quick Back-Translation for Unsupervised Machine Translation Benjamin J. Brimacombe Jiawei Zhou 21 1 0 01 Dec 2023
Relevance-guided Neural Machine Translation Isidora Chara Tourni Derry Wijaya 19 0 0 30 Nov 2023
INarIG: Iterative Non-autoregressive Instruct Generation Model For Word-Level Auto Completion Hengchao Shang Zongyao Li Daimeng Wei Jiaxin Guo Minghan Wang Xiaoyu Chen Lizhi Lei Hao Yang 27 0 0 30 Nov 2023
FreeAL: Towards Human-Free Active Learning in the Era of Large Language Models Rui Xiao Yiwen Dong Junbo Zhao Runze Wu Minmin Lin Gang Chen Haobo Wang 34 7 0 27 Nov 2023
OpusCleaner and OpusTrainer, open source toolkits for training Machine Translation and Large language models Nikolay Bogoychev Jelmer van der Linde Graeme Nail Barry Haddow Jaume Zaragoza-Bernabeu Gema Ramírez-Sánchez Lukas Weymann Tudor N. Mateiu Jindvrich Helcl Mikko Aulamo VLM 6 1 0 24 Nov 2023
Leveraging Closed-Access Multilingual Embedding for Automatic Sentence Alignment in Low Resource Languages Idris Abdulmumin Auwal Abubakar Khalid Shamsuddeen Hassan Muhammad I. Ahmad L. Aliyu Babangida Sani B.M. Abduljalil Sani Ahmad Hassan 34 0 0 20 Nov 2023
KBioXLM: A Knowledge-anchored Biomedical Multilingual Pretrained Language Model Lei Geng Xu Yan Ziqiang Cao Juntao Li Wenjie Li Sujian Li Xinjie Zhou Yang Yang Jun Zhang 38 0 0 20 Nov 2023
CLEAN-EVAL: Clean Evaluation on Contaminated Large Language Models Wenhong Zhu Hong-ping Hao Zhiwei He Yun-Ze Song Yumeng Zhang Hanxu Hu Yiran Wei Rui Wang Hongyuan Lu AAML ELM 17 12 0 15 Nov 2023
Extending Multilingual Machine Translation through Imitation Learning Wen Lai Viktor Hangya Alexander Fraser LRM CLL 24 3 0 14 Nov 2023