BPE Gets Picky: Efficient Vocabulary Refinement During Tokenizer Training

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2024

6 September 2024

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "BPE Gets Picky: Efficient Vocabulary Refinement During Tokenizer Training"

7 / 7 papers shown

Teaching Old Tokenizers New Words: Efficient Tokenizer Adaptation for Pre-trained Models

132

03 Dec 2025

IndicSuperTokenizer: An Optimized Tokenizer for Indic Multilingual LLMs

112

05 Nov 2025

Aneurysm Growth Time Series Reconstruction Using Physics-informed Autoencoder

Jiacheng Wu

AI4CE

05 Oct 2025

Exploiting Vocabulary Frequency Imbalance in Language Model Pre-training

Woojin Chung

Jeonghoon Kim

188

21 Aug 2025

Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment

Saketh Reddy Vemula

Sandipan Dandapat

D. Sharma

Parameswari Krishnamurthy

231

11 Aug 2025

Incorporating Domain Knowledge into Materials TokenizationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

160

09 Jun 2025

Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization

480

27 May 2024