v1v2v3 (latest)

Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?

23 July 2024

Yejin Choi

ArXiv (abs)PDF HTML HuggingFace (23 upvotes)Github

Papers citing "Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?"

12 / 12 papers shown

When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs' Toxicity

281

14 Sep 2025

Speculating LLMs' Chinese Training Data Pollution from Their Tokens

119

25 Aug 2025

Train It and Forget It: Merge Lists are Unnecessary for BPE Inference in Language Models

Tomohiro Sawada

Kartik Goyal

MoMe

133

08 Aug 2025

TokAlign: Efficient Vocabulary Adaptation via Token AlignmentAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

246

04 Jun 2025

Learning Dynamics in Continual Pre-Training for Large Language Models

378

12 May 2025

On Linear Representations and Pretraining Data Frequency in Language ModelsInternational Conference on Learning Representations (ICLR), 2025

548

16 Apr 2025

SuperBPE: Space Travel for Language Models

592

17 Mar 2025

Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual LLMs: An Extensive InvestigationAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Vera Neplenbroek

Arianna Bisazza

Raquel Fernández

653

18 Dec 2024

VersaTune: An Efficient Data Composition Framework for Training Multi-Capability LLMs

...

588

18 Nov 2024

Performance Evaluation of Tokenizers in Large Language Models for the Assamese LanguageInternational journal of information technology (IJIT), 2024

Sagar Tamang

Dibya Jyoti Bora

240

28 Sep 2024

Batching BPE Tokenization Merges

Alexander P. Morgan

228

05 Aug 2024

MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization

369

11 Jul 2024