v1v2v3v4 (latest)

Tokenizer Choice For LLM Training: Negligible or Crucial?

12 October 2023

Jasper Schulze Buschhoff

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "Tokenizer Choice For LLM Training: Negligible or Crucial?"

46 / 46 papers shown

On the Origin of Algorithmic Progress in AI

26 Nov 2025

Length-MAX Tokenizer for Language Models

Dong Dong

Weijie Su

VLM

191

25 Nov 2025

Tokenisation over Bounded Alphabets is Hard

144

19 Nov 2025

Enhancing LLM Code Generation Capabilities through Test-Driven Development and Code Interpreter

Sajed Jalil

Shuvo Saha

Hossain Mohammad Seym

16 Nov 2025

UTF-8 Plumbing: Byte-level Tokenizers Unavoidably Enable LLMs to Generate Ill-formed UTF-8

05 Nov 2025

How Different Tokenization Algorithms Impact LLMs and Transformer Models for Binary Code Analysis

Ahmed Mostafa

Raisul Arefin Nahid

Samuel Mulder

100

05 Nov 2025

IndicSuperTokenizer: An Optimized Tokenizer for Indic Multilingual LLMs

113

05 Nov 2025

Model-Aware Tokenizer Transfer

Mykola Haltiuk

Aleksander Smywiński-Pohl

113

24 Oct 2025

See the Text: From Tokenization to Visual Reading

156

21 Oct 2025

so much depends / upon / a whitespace: Why Whitespace Matters for Poets and LLMs

Sriharsh Bhyravajjula

Melanie Walsh

Anna Preus

Maria Antoniak

113

19 Oct 2025

Tahakom LLM Guidelines and Recipes: From Pre-training Data to an Arabic LLM

...

193

15 Oct 2025

Beyond Fertility: Analyzing STRR as a Metric for Multilingual Tokenization Evaluation

Mir Tafseer Nayeem

Sawsan Alqahtani

Md Tahmid Rahman Laskar

Tasnim Mohiuddin

M Saiful Bari

132

11 Oct 2025

Aneurysm Growth Time Series Reconstruction Using Physics-informed Autoencoder

Jiacheng Wu

AI4CE

05 Oct 2025

Comparative Analysis of Tokenization Algorithms for Low-Resource Language Dzongkha

Tandin Wangchuk

Tad Gonsalves

18 Sep 2025

Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian

160

06 Sep 2025

SEA-BED: Southeast Asia Embedding Benchmark

Wuttikorn Ponwitayarat

...

Ekapol Chuangsuwanich

Sarana Nutanong

Peerat Limkonchotiwat

162

17 Aug 2025

UNVEILING: What Makes Linguistics Olympiad Puzzles Tricky for LLMs?

Mukund Choudhary

KV Aditya Srivatsa

Gaurja Aeron

Antara Raaghavi Bhattacharya

1.5K

15 Aug 2025

Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization

208

06 Aug 2025

On LLM-Assisted Generation of Smart Contracts from Business Processes

Fabian Stiehle

Hans Weytjens

Ingo Weber

177

30 Jul 2025

Pre-trained Models Perform the Best When Token Distributions Follow Zipf's Law

Yanjin He

Qingkai Zeng

Meng Jiang

172

30 Jul 2025

FLEXITOKENS: Flexible Tokenization for Evolving Language Models

A. Owodunni

Orevaoghene Ahia

Sachin Kumar

214

17 Jul 2025

Thunder-Tok: Minimizing Tokens per Word in Tokenizing Korean Texts for Generative Language Models

216

18 Jun 2025

From Bytes to Ideas: Language Modeling with Autoregressive U-Nets

186

17 Jun 2025

Beyond Random Sampling: Efficient Language Model Pretraining via Curriculum Learning

Michalis Vazirgiannis

208

12 Jun 2025

One Tokenizer To Rule Them All: Emergent Language Plasticity via Multilingual Tokenizers

Diana Abagyan

Alejandro Salamanca

Andres Felipe Cruz-Salinas

369

12 Jun 2025

Causal Estimation of Tokenisation BiasAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

240

03 Jun 2025

Token Distillation: Attention-aware Input Embeddings For New Tokens

411

26 May 2025

Optimized Text Embedding Models and Benchmarks for Amharic Passage RetrievalAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

313

25 May 2025

Aleph-Alpha-GermanWeb: Improving German-language LLM pre-training with model-based data curation and synthetic data generation

498

24 Apr 2025

Kuwain 1.5B: An Arabic SLM via Language Injection

Khalil Hennara

Sara Chrouf

Mohamed Motaism Hamed

Zeina Aldallal

Omar Hadid

Safwan AlModhayan

282

21 Apr 2025

Tokenization is Sensitive to Language VariationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Anna Wegmann

Dong Nguyen

David Jurgens

434

21 Feb 2025

Soteria: Language-Specific Functional Parameter Steering for Multilingual Safety Alignment

378

16 Feb 2025

Visual-Word Tokenizer: Beyond Fixed Sets of Tokens in Vision Transformers

678

23 Nov 2024

LLäMmlein: Transparent, Compact and Competitive German-Only Language Models from ScratchAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Jan Pfister

Julia Wunderle

Andreas Hotho

550

17 Nov 2024

ChitroJera: A Regionally Relevant Visual Question Answering Dataset for Bangla

Deeparghya Dutta Barua

Md Sakib Ul Rahman Sourove

Md Fahim

Fabiha Haider

Fariha Tanjim Shifat

Md Tasmim Rahman Adib

Anam Borhan Uddin

Md Farhan Ishmam

Md Farhad Alam

223

19 Oct 2024

Data Processing for the OpenGPT-X Model Family

...

458

11 Oct 2024

Large Language Models as Markov Chains

423

03 Oct 2024

Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs

...

309

30 Sep 2024

Tokenization for Molecular Foundation Models

Alexius Wadell

Anoushka Bhutani

Venkatasubramanian Viswanathan

1.1K

19 Sep 2024

BPE Gets Picky: Efficient Vocabulary Refinement During Tokenizer TrainingConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

232

06 Sep 2024

Bilingual Adaptation of Monolingual Foundation Models

...

Mohamed El Karim Chami

Preslav Nakov

CLL

352

13 Jul 2024

Training LLMs over Neurally Compressed Text

Jascha Narain Sohl-Dickstein

Noah Constant

205

04 Apr 2024

Poro 34B and the Blessing of Multilinguality

311

02 Apr 2024

An Improved Traditional Chinese Evaluation Suite for Foundation Model

483

04 Mar 2024

NusaBERT: Teaching IndoBERT to be Multilingual and Multicultural

Wilson Wongso

David Samuel Setiawan

Steven Limcorn

Ananto Joyoadikusumo

170

04 Mar 2024

On the Challenges and Opportunities in Generative AI

...

756

28 Feb 2024