SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

19 August 2018

Taku Kudo

John Richardson

ArXiv (abs)PDF HTML Github (10925★)

Papers citing "SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing"

50 / 2,063 papers shown

Regression Language Models for Code

Mohamed S. Abdelfattah

184

30 Sep 2025

Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models

162

28 Sep 2025

A High-Capacity and Secure Disambiguation Algorithm for Neural Linguistic Steganography

142

26 Sep 2025

Partial Parameter Updates for Efficient Distributed Training

Anastasiia Filippova

Angelos Katharopoulos

David Grangier

Ronan Collobert

FedML

132

26 Sep 2025

Tokenization and Representation Biases in Multilingual Models on Dialectal NLP Tasks

24 Sep 2025

Low-Resource English-Tigrinya MT: Leveraging Multilingual Models, Custom Tokenizers, and Clean Evaluation Benchmarks

Hailay Teklehaymanot

Gebrearegawi Gidey

Wolfgang Nejdl

104

24 Sep 2025

False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models

185

23 Sep 2025

Computational Social Linguistics for Telugu Cultural Preservation: Novel Algorithms for Chandassu Metrical Pattern Recognition

Boddu Sri Pavan

Boddu Swathi Sree

23 Sep 2025

DTW-Align: Bridging the Modality Gap in End-to-End Speech Translation with Dynamic Time Warping Alignment

23 Sep 2025

Cross-Attention is Half Explanation in Speech-to-Text Models

161

22 Sep 2025

Enhancing Cross-Lingual Transfer through Reversible Transliteration: A Huffman-Based Approach for Low-Resource Languages

Wenhao Zhuang

Yuan Sun

Xiaobing Zhao

108

22 Sep 2025

CUTE: A Multilingual Dataset for Enhancing Cross-Lingual Knowledge Transfer in Low-Resource LanguagesInternational Conference on Computational Linguistics (COLING), 2025

Wenhao Zhuang

Yuan Sun

108

21 Sep 2025

Chunk Based Speech Pre-training with High Resolution Finite Scalar Quantization

Yun Tang

Cindy Tseng

19 Sep 2025

Deep learning and abstractive summarisation for radiological reports: an empirical study for adapting the PEGASUS models' family with scarce data

107

18 Sep 2025

Comparative Analysis of Tokenization Algorithms for Low-Resource Language Dzongkha

Tandin Wangchuk

Tad Gonsalves

18 Sep 2025

Multi-Channel Differential ASR for Robust Wearer Speech Recognition on Smart Glasses

...

120

17 Sep 2025

Canary-1B-v2 & Parakeet-TDT-0.6B-v3: Efficient and High-Performance Models for Multilingual ASR and AST

170

17 Sep 2025

Data-independent Beamforming for End-to-end Multichannel Multi-speaker ASR

112

12 Sep 2025

Long Context Automated Essay Scoring with Language Models

Christopher Ormerod

Gitit Kehat

123

12 Sep 2025

MoVoC: Morphology-Aware Subword Construction for Geez Script Languages

Hailay Teklehaymanot

Dren Fazlija

Wolfgang Nejdl

114

10 Sep 2025

Continuous Audio Language Models

263

08 Sep 2025

Optimal Multi-Task Learning at Regularization Horizon for Speech Translation Task

JungHo Jung

Junhyun Lee

04 Sep 2025

Do LLM Modules Generalize? A Study on Motion Generation for Autonomous Driving

172

02 Sep 2025

NADI 2025: The First Multidialectal Arabic Speech Processing Shared Task

...

Muhammad Abdul-Mageed

186

02 Sep 2025

Addressing Tokenization Inconsistency in Steganography and Watermarking Based on Large Language Models

Ruiyi Yan

Yugo Murawaki

WaLM

163

28 Aug 2025

Enhancing Robustness of Autoregressive Language Models against Orthographic Attacks via Pixel-based Approach

28 Aug 2025

Heterogeneous Self-Supervised Acoustic Pre-Training with Local Constraints

189

27 Aug 2025

Insights into User Interface Innovations from a Design Thinking Workshop at deRSE25

Maximilian Frank

Simon Lund

26 Aug 2025

It's All About In-Context Learning! Teaching Extremely Low-Resource Languages to LLMs

Yue Li

Zhixue Zhao

Carolina Scarton

141

26 Aug 2025

Grounding the Ungrounded: A Spectral-Graph Framework for Quantifying Hallucinations in Multimodal LLMs

Supratik Sarkar

Swagatam Das

139

26 Aug 2025

Stack Trace-Based Crash Deduplication with Transformer Adaptation

104

26 Aug 2025

Speculating LLMs' Chinese Training Data Pollution from Their Tokens

25 Aug 2025

JaParaPat: A Large-Scale Japanese-English Parallel Patent Application CorpusInternational Conference on Language Resources and Evaluation (LREC), 2025

Masaaki Nagata

Katsuki Chousa

Norihito Yasuda

22 Aug 2025

VocabTailor: Dynamic Vocabulary Selection for Downstream Tasks in Small Language Models

21 Aug 2025

Filling the Gap for Uzbek: Creating Translation Resources for Southern Uzbek

Mukhammadsaid Mamasaidov

Azizullah Aral

Abror Shopulatov

Mironshoh Inomjonov

20 Aug 2025

CAST: Counterfactual Labels Improve Instruction Following in Vision-Language-Action Models

194

19 Aug 2025

Tokens with Meaning: A Hybrid Tokenization Approach for NLP

19 Aug 2025

Doğal Dil İşlemede Tokenizasyon Standartları ve Ölçümü: Türkçe Üzerinden Büyük Dil Modellerinin Karşılaştırmalı AnaliziSignal Processing and Communications Applications Conference (SIU), 2025

18 Aug 2025

SupraTok: Cross-Boundary Tokenization for Enhanced Language Model Performance

Andrei-Valentin Tanase

Elena Pelican

125

16 Aug 2025

Large Language Models for Summarizing Czech Historical Documents and BeyondInternational Conference on Agents and Artificial Intelligence (ICAART), 2025

130

14 Aug 2025

Objective Soups: Multilingual Multi-Task Modeling for Speech Processing

12 Aug 2025

Special-Character Adversarial Attacks on Open-Source Language Model

Ephraiem Sarabamoun

117

12 Aug 2025

DeCAL Tokenwise Compression

Sameer Panwar

149

11 Aug 2025

Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment

Saketh Reddy Vemula

Sandipan Dandapat

D. Sharma

Parameswari Krishnamurthy

235

11 Aug 2025

Train It and Forget It: Merge Lists are Unnecessary for BPE Inference in Language Models

Tomohiro Sawada

Kartik Goyal

MoMe

08 Aug 2025

H-Net++: Hierarchical Dynamic Chunking for Tokenizer-Free Language Modelling in Morphologically-Rich Languages

Mehrdad Zakershahrak

Samira Ghodratnama

VLM

07 Aug 2025

The Art of Breaking Words: Rethinking Multilingual Tokenizer Design

Maunendra Sankar Desarkar

Ganesh Ramakrishnan

104

03 Aug 2025

Pre-trained Models Perform the Best When Token Distributions Follow Zipf's Law

Yanjin He

Qingkai Zeng

Meng Jiang

172

30 Jul 2025

Multi-Hypothesis Distillation of Multilingual Neural Translation Models for Low-Resource Languages

Aarón Galiano-Jiménez

Juan Antonio Pérez-Ortiz

F. Sánchez-Martínez

Víctor M. Sánchez-Cartagena

201

29 Jul 2025

Enhancing Hindi NER in Low Context: A Comparative study of Transformer-based models with vs. without Retrieval Augmentation

Sumit Singh

Rohit Mishra

U. Tiwary

103

21 Jul 2025