BPE-Dropout: Simple and Effective Subword Regularization

29 October 2019

Papers citing "BPE-Dropout: Simple and Effective Subword Regularization"

50 / 147 papers shown

Title
Optimized Tokenization for Transcribed Error Correction Tomer Wullach Shlomo E. Chazan 26 0 0 16 Oct 2023
Tik-to-Tok: Translating Language Models One Token at a Time: An Embedding Initialization Strategy for Efficient Language Adaptation François Remy Pieter Delobelle Bettina Berendt Kris Demuynck Thomas Demeester 29 3 0 05 Oct 2023
Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard Parameter Sharing B. Grimstad Xuankai Chang Antonios Anastasopoulos Yuya Fujita Shinji Watanabe 26 2 0 27 Sep 2023
Language Modeling Is Compression Grégoire Delétang Anian Ruoss Paul-Ambroise Duquenne Elliot Catt Tim Genewein ... Wenliang Kevin Li Matthew Aitchison Laurent Orseau Marcus Hutter J. Veness AI4CE 32 131 0 19 Sep 2023
Subwords as Skills: Tokenization for Sparse-Reward Reinforcement Learning David Yunis Justin Jung Falcon Z. Dai Matthew R. Walter OffRL 39 0 0 08 Sep 2023
Baseline Defenses for Adversarial Attacks Against Aligned Language Models Neel Jain Avi Schwarzschild Yuxin Wen Gowthami Somepalli John Kirchenbauer Ping Yeh-Chiang Micah Goldblum Aniruddha Saha Jonas Geiping Tom Goldstein AAML 42 337 0 01 Sep 2023
An Effective Method using Phrase Mechanism in Neural Machine Translation Phuong Minh Nguyen Le-Minh Nguyen 14 0 0 21 Aug 2023
CodeBPE: Investigating Subtokenization Options for Large Language Model Pretraining on Source Code Nadezhda Chirkova Sergey Troshin 21 8 0 01 Aug 2023
Generative Models as a Complex Systems Science: How can we make sense of large language model behavior? Ari Holtzman Peter West Luke Zettlemoyer AI4CE 30 14 0 31 Jul 2023
SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural Machine Translation Haiyue Song Raj Dabre Chenhui Chu Sadao Kurohashi Eiichiro Sumita 16 3 0 31 Jul 2023
UniCoRN: Unified Cognitive Signal ReconstructioN bridging cognitive signals and human language Nuwa Xi Sendong Zhao Hao Wang Chi-Liang Liu Bing Qin Ting Liu 24 19 0 06 Jul 2023
Should you marginalize over possible tokenizations? Nadezhda Chirkova Germán Kruszewski Jos Rozen Marc Dymetman 22 10 0 30 Jun 2023
Tokenization and the Noiseless Channel Vilém Zouhar Clara Meister Juan Luis Gastaldi Li Du Mrinmaya Sachan Ryan Cotterell 30 31 0 29 Jun 2023
Tokenization with Factorized Subword Encoding David Samuel Lilja Øvrelid 35 1 0 13 Jun 2023
Evolution of Efficient Symbolic Communication Codes Anton Kolonin 15 0 0 04 Jun 2023
Data-Efficient French Language Modeling with CamemBERTa Wissam Antoun Benoît Sagot Djamé Seddah 23 7 0 02 Jun 2023
Assessing the Importance of Frequency versus Compositionality for Subword-based Tokenization in NMT Benoist Wolleb Romain Silvestri Giorgos Vernikos Ljiljana Dolamic Ljiljana Dolamic Andrei Popescu-Belis 14 4 0 02 Jun 2023
Byte-Level Grammatical Error Correction Using Synthetic and Curated Corpora Svanhvít Lilja Ingólfsdóttir Pétur Orri Ragnarsson H. Jónsson Haukur Barri Símonarson Vilhjálmur Þorsteinsson Vésteinn Snæbjarnarson SyDa 30 9 0 29 May 2023
Do All Languages Cost the Same? Tokenization in the Era of Commercial Language Models Orevaoghene Ahia Sachin Kumar Hila Gonen Jungo Kasai David R. Mortensen Noah A. Smith Yulia Tsvetkov 42 81 0 23 May 2023
Pseudo-Label Training and Model Inertia in Neural Machine Translation B. Hsu Anna Currey Xing Niu Maria Nuadejde Georgiana Dinu ODL 38 2 0 19 May 2023
CharSpan: Utilizing Lexical Similarity to Enable Zero-Shot Machine Translation for Extremely Low-resource Languages Kaushal Kumar Maurya Rahul Kejriwal M. Desarkar Anoop Kunchukuttan 32 1 0 09 May 2023
SLTUNET: A Simple Unified Model for Sign Language Translation Biao Zhang Mathias Müller Rico Sennrich SLR 43 33 0 02 May 2023
Tokenization Preference for Human and Machine Learning Model: An Annotation Study Tatsuya Hiraoka Tomoya Iwakura 24 1 0 21 Apr 2023
Downstream Task-Oriented Neural Tokenizer Optimization with Vocabulary Restriction as Post Processing Tatsuya Hiraoka Tomoya Iwakura 12 0 0 21 Apr 2023
Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on POS Tagging for Non-Standardized Languages Verena Blaschke Hinrich Schütze Barbara Plank 39 14 0 20 Apr 2023
Elementwise Language Representation Du-Yeong Kim Jeeeun Kim 30 0 0 27 Feb 2023
Tokenization Consistency Matters for Generative Models on Extractive NLP Tasks Kaiser Sun Peng Qi Yuhao Zhang Lan Liu William Yang Wang Zhiheng Huang 24 7 0 19 Dec 2022
Robust Speech Recognition via Large-Scale Weak Supervision Alec Radford Jong Wook Kim Tao Xu Greg Brockman C. McLeavey Ilya Sutskever OffRL 49 3,283 0 06 Dec 2022
Breaking the Representation Bottleneck of Chinese Characters: Neural Machine Translation with Stroke Sequence Modeling Zhijun Wang Xuebo Liu Min Zhang 25 11 0 23 Nov 2022
Towards Summary Candidates Fusion Mathieu Ravaut Shafiq R. Joty Nancy F. Chen 29 14 0 17 Oct 2022
Style Transfer as Data Augmentation: A Case Study on Named Entity Recognition Shuguang Chen Leonardo Neves Thamar Solorio 46 3 0 14 Oct 2022
Incorporating Context into Subword Vocabularies Shaked Yehezkel Yuval Pinter 44 8 0 13 Oct 2022
MTet: Multi-domain Translation for English and Vietnamese C. Ngo Trieu H. Trinh Long Phan H. Tran Tai Dang Hieu Duy Nguyen Minh Le Nguyen Minh-Thang Luong VLM 29 8 0 11 Oct 2022
JoeyS2T: Minimalistic Speech-to-Text Modeling with JoeyNMT Mayumi Ohta Julia Kreutzer Stefan Riezler 14 0 0 05 Oct 2022
MaxMatch-Dropout: Subword Regularization for WordPiece Tatsuya Hiraoka 43 8 0 09 Sep 2022
MockingBERT: A Method for Retroactively Adding Resilience to NLP Models Jan Jezabek A. Singh SILM KELM 15 0 0 21 Aug 2022
How Effective is Byte Pair Encoding for Out-Of-Vocabulary Words in Neural Machine Translation? Ali Araabi Christof Monz Vlad Niculae 25 10 0 10 Aug 2022
Efficient Training of Language Models to Fill in the Middle Mohammad Bavarian Heewoo Jun Nikolas Tezak John Schulman C. McLeavey Jerry Tworek Mark Chen 6 179 0 28 Jul 2022
Language Modelling with Pixels Phillip Rust Jonas F. Lotz Emanuele Bugliarello Elizabeth Salesky Miryam de Lhoneux Desmond Elliott VLM 38 46 0 14 Jul 2022
The SIGMORPHON 2022 Shared Task on Morpheme Segmentation Khuyagbaatar Batsuren Gábor Bella Aryaman Arora Viktor Martinović Kyle Gorman ... Magda vSevvcíková Katevrina Pelegrinová Fausto Giunchiglia Ryan Cotterell Ekaterina Vylomova 31 39 0 15 Jun 2022
Searching for Optimal Subword Tokenization in Cross-domain NER Ruotian Ma Yiding Tan Xin Zhou Xuanting Chen Di Liang Sirui Wang Wei Yu Wu Tao Gui Qi Zhang OOD 46 14 0 07 Jun 2022
What do tokens know about their characters and how do they know it? Ayush Kaushal Kyle Mahowald 19 28 0 06 Jun 2022
Improving Contrastive Learning of Sentence Embeddings with Case-Augmented Positives and Retrieved Negatives Wei Wang Liangzhu Ge Jingqiao Zhang Cheng Yang 22 20 0 06 Jun 2022
EMS: Efficient and Effective Massively Multilingual Sentence Embedding Learning Zhuoyuan Mao Chenhui Chu Sadao Kurohashi 43 1 0 31 May 2022
Gating Dropout: Communication-efficient Regularization for Sparsely Activated Transformers R. Liu Young Jin Kim Alexandre Muzio Hany Awadalla MoE 47 22 0 28 May 2022
Local Byte Fusion for Neural Machine Translation Makesh Narsimhan Sreedhar Xiangpeng Wan Yu-Jie Cheng Junjie Hu 27 4 0 23 May 2022
Impact of Tokenization on Language Models: An Analysis for Turkish Cagri Toraman E. Yilmaz Furkan Şahinuç Oguzhan Ozcelik 30 74 0 19 Apr 2022
CipherDAug: Ciphertext based Data Augmentation for Neural Machine Translation Nishant Kambhatla Logan Born Anoop Sarkar 15 16 0 01 Apr 2022
Analyzing Generalization of Vision and Language Navigation to Unseen Outdoor Areas Raphael Schumann Stefan Riezler 16 26 0 25 Mar 2022
Single Model Ensemble for Subword Regularized Models in Low-Resource Machine Translation Sho Takase Tatsuya Hiraoka Naoaki Okazaki 16 5 0 25 Mar 2022