v1v2 (latest)

Language Model Tokenizers Introduce Unfairness Between Languages

Neural Information Processing Systems (NeurIPS), 2023

17 May 2023

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Language Model Tokenizers Introduce Unfairness Between Languages"

50 / 68 papers shown

Teaching Old Tokenizers New Words: Efficient Tokenizer Adaptation for Pre-trained Models

138

03 Dec 2025

Social Perceptions of English Spelling Variation on Twitter: A Comparative Analysis of Human and LLM Responses

Dong Nguyen

Laura Rosseel

28 Nov 2025

UTF-8 Plumbing: Byte-level Tokenizers Unavoidably Enable LLMs to Generate Ill-formed UTF-8

05 Nov 2025

IndicSuperTokenizer: An Optimized Tokenizer for Indic Multilingual LLMs

115

05 Nov 2025

Languages are Modalities: Cross-Lingual Alignment via Encoder Injection

Rajan Agarwal

Aarush Gupta

130

31 Oct 2025

Explaining and Mitigating Crosslingual Tokenizer Inequities

163

24 Oct 2025

Back to Bytes: Revisiting Tokenization Through UTF-8

127

19 Oct 2025

Vocab Diet: Reshaping the Vocabulary of LLMs with Vector Arithmetic

170

19 Oct 2025

Tahakom LLM Guidelines and Recipes: From Pre-training Data to an Arabic LLM

...

193

15 Oct 2025

Metric Calculating Benchmark: Code-Verifiable Complicate Instruction Following Benchmark for Large Language Models

151

09 Oct 2025

Towards Data-Efficient Medical Imaging: A Generative and Semi-Supervised Framework

251

07 Oct 2025

Auditing Pay-Per-Token in Large Language Models

Ander Artola Velasco

Stratis Tsirtsis

Manuel Gomez Rodriguez

MLAU

229

05 Oct 2025

The Disparate Impacts of Speculative Decoding

120

02 Oct 2025

One Model, Many Morals: Uncovering Cross-Linguistic Misalignments in Computational Moral Reasoning

140

25 Sep 2025

Tokenization and Representation Biases in Multilingual Models on Dialectal NLP Tasks

24 Sep 2025

False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models

185

23 Sep 2025

Bhaasha, Bhasa, Zaban: A Survey for Low-Resourced Languages in South Asia - Current Stage and Challenges

Sampoorna Poria

Xiaolei Huang

200

15 Sep 2025

It's All About In-Context Learning! Teaching Extremely Low-Resource Languages to LLMs

Yue Li

Zhixue Zhao

Carolina Scarton

141

26 Aug 2025

Long Chain-of-Thought Reasoning Across Languages

156

20 Aug 2025

The Art of Breaking Words: Rethinking Multilingual Tokenizer Design

Maunendra Sankar Desarkar

Ganesh Ramakrishnan

104

03 Aug 2025

AI-generated stories favour stability over change: homogeneity and cultural stereotyping in narratives generated by gpt-4o-miniOpen Research Europe (ORE), 2025

Jill Walker Rettberg

Hermann Wigers

141

30 Jul 2025

SpeLLM: Character-Level Multi-Head Decoding

Amit Ben Artzy

Roy Schwartz

139

22 Jul 2025

FLEXITOKENS: Flexible Tokenization for Evolving Language Models

A. Owodunni

Orevaoghene Ahia

Sachin Kumar

217

17 Jul 2025

Thunder-Tok: Minimizing Tokens per Word in Tokenizing Korean Texts for Generative Language Models

220

18 Jun 2025

One Tokenizer To Rule Them All: Emergent Language Plasticity via Multilingual Tokenizers

Diana Abagyan

Alejandro Salamanca

Andres Felipe Cruz-Salinas

373

12 Jun 2025

Bit-level BPE: Below the byte boundary

Sangwhan Moon

Tatsuya Hiraoka

Naoaki Okazaki

173

09 Jun 2025

Beyond Text Compression: Evaluating Tokenizers Across ScalesAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

276

03 Jun 2025

Minimal Pair-Based Evaluation of Code-SwitchingAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Igor Sterner

Simone Teufel

297

02 Jun 2025

Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives

Ander Artola Velasco

Stratis Tsirtsis

William Orchard

Manuel Gomez Rodriguez

381

27 May 2025

BnMMLU: Measuring Massive Multitask Language Understanding in Bengali

Saman Sarker Joy

Swakkhar Shatabda

ELM

184

25 May 2025

Multilingual Question Answering in Low-Resource Settings: A Dzongkha-English Benchmark for Foundation Models

Md. Tanzib Hosain

Rajan Das Gupta

Md. Kishor Morol

206

24 May 2025

Crosslingual Reasoning through Test-Time Scaling

Zheng-Xin Yong

Muhammad Farid Adilazuarda

969

08 May 2025

Regional Tiny Stories: Using Small Models to Compare Language Learning and Tokenizer Performance

353

07 Apr 2025

Large Language Models in Numberland: A Quick Test of Their Numerical Reasoning Abilities

Roussel Rahman

ReLM ELM LRM

252

31 Mar 2025

Adversarial TokenizationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

439

04 Mar 2025

Sherkala-Chat: Building a State-of-the-Art LLM for Kazakh in a Moderately Resourced Setting

...

404

03 Mar 2025

Do Multilingual LLMs Think In English?

Lisa Schut

Y. Gal

Sebastian Farquhar

293

24 Feb 2025

Tokenization is Sensitive to Language VariationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Anna Wegmann

Dong Nguyen

David Jurgens

434

21 Feb 2025

DiSCo: Device-Server Collaborative LLM-Based Text Streaming ServicesAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Ting Sun

Penghan Wang

Fan Lai

322

17 Feb 2025

Soteria: Language-Specific Functional Parameter Steering for Multilingual Safety Alignment

378

16 Feb 2025

How well can LLMs Grade Essays in Arabic?

Rayed Ghazawi

Edwin Simpson

215

27 Jan 2025

When LLMs Struggle: Reference-less Translation Evaluation for Low-resource Languages

252

08 Jan 2025

Visual-Word Tokenizer: Beyond Fixed Sets of Tokens in Vision Transformers

681

23 Nov 2024

MrT5: Dynamic Token Merging for Efficient Byte-level Language ModelsInternational Conference on Learning Representations (ICLR), 2024

Julie Kallini

Shikhar Murty

Christopher D. Manning

Christopher Potts

Róbert Csordás

416

28 Oct 2024

Ethics Whitepaper: Whitepaper on Ethical Research into Large Language Models

262

17 Oct 2024

Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning TasksAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

514

14 Oct 2024

Adapters for Altering LLM Vocabularies: What Languages Benefit the Most?International Conference on Learning Representations (ICLR), 2024

HyoJung Han

238

12 Oct 2024

From Tokens to Words: On the Inner Lexicon of LLMsInternational Conference on Learning Representations (ICLR), 2024

Guy Kaplan

Matanel Oren

Yuval Reif

Roy Schwartz

439

08 Oct 2024

Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs

...

313

30 Sep 2024

ExploreSelf: Fostering User-driven Exploration and Reflection on Personal Challenges with Adaptive Guidance by Large Language ModelsInternational Conference on Human Factors in Computing Systems (CHI), 2024

SoHyun Park

Young-Ho Kim

383

15 Sep 2024