SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

19 August 2018

Taku Kudo

John Richardson

ArXiv (abs)PDF HTML Github (10925★)

Papers citing "SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing"

50 / 2,064 papers shown

MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling

Luke Zettlemoyer

305

15 Mar 2024

DiPaCo: Distributed Path Composition

235

15 Mar 2024

Frozen Feature Augmentation for Few-Shot Image Classification

285

15 Mar 2024

Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast ConformerIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Maxime Burchi

Krishna C. Puvvada

Jagadeesh Balam

Boris Ginsburg

Radu Timofte

216

14 Mar 2024

Token Alignment via Character Matching for Subword CompletionAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Sujan Kumar Gonugondla

192

13 Mar 2024

Gemma: Open Models Based on Gemini Research and Technology

Gemma Team

Gemma Team Thomas Mesnard

...

597

841

13 Mar 2024

Beyond Text: Frozen Large Language Models in Visual Signal ComprehensionComputer Vision and Pattern Recognition (CVPR), 2024

Lei Zhu

Fangyun Wei

Yanye Lu

MLLM VLM

222

12 Mar 2024

Masked AutoDecoder is Effective Multi-Task Vision GeneralistComputer Vision and Pattern Recognition (CVPR), 2024

213

12 Mar 2024

MAMMOTH: Massively Multilingual Modular Open Translation @ HelsinkiConference of the European Chapter of the Association for Computational Linguistics (EACL), 2024

220

12 Mar 2024

Improving Speaker Assignment in Speaker-Attributed ASR for Real Meeting ApplicationsThe Speaker and Language Recognition Workshop (Odyssey), 2024

308

11 Mar 2024

Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages

Michael Andersland

11 Mar 2024

Authorship Attribution in Bangla Literature (AABL) via Transfer Learning using ULMFiTACM Transactions on Asian and Low-Resource Language Information Processing (TALLIP), 2022

Aisha Khatun

Anisur Rahman

Md. Saiful Islam

Hemayet Ahmed Chowdhury

A. Tasnim

177

08 Mar 2024

To Err Is Human, but Llamas Can Learn It TooConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

230

08 Mar 2024

FFSTC: Fongbe to French Speech Translation CorpusInternational Conference on Language Resources and Evaluation (LREC), 2024

D. F. Kponou

F. Laleye

E. C. Ezin

192

08 Mar 2024

Cross-lingual Transfer or Machine Translation? On Data Augmentation for Monolingual Semantic Textual SimilarityInternational Conference on Language Resources and Evaluation (LREC), 2024

164

08 Mar 2024

Yi: Open Foundation Models by 01.AI

...

833

766

07 Mar 2024

CLIP the Bias: How Useful is Balancing Data in Multimodal Learning?International Conference on Learning Representations (ICLR), 2024

Ibrahim Alabdulmohsin

211

07 Mar 2024

gaHealth: An English-Irish Bilingual Corpus of Health Data

251

06 Mar 2024

BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine Translation

Carinne Cherf

Yuval Pinter

06 Mar 2024

Towards Training A Chinese Large Language Model for Anesthesiology

Yibing Zhan

...

Liang Ding

176

05 Mar 2024

adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource Languages with Integrated LLM Playgrounds

Séamus Lankford

Haithem Afli

Andy Way

202

04 Mar 2024

A Generative Approach for Wikipedia-Scale Visual Entity Recognition

353

04 Mar 2024

Transformers for Low-Resource Languages:Is Féidir Linn!

Séamus Lankford

H. Alfi

Tamás Sarlós

276

04 Mar 2024

adaptNMT: an open-source, language-agnostic development environment for Neural Machine Translation

Séamus Lankford

Haithem Afli

Andy Way

247

04 Mar 2024

Human Evaluation of English--Irish Transformer-Based NMT

Séamus Lankford

Haithem Afli

Andy Way

232

04 Mar 2024

Revisiting Dynamic Evaluation: Online Adaptation for Large Language Models

Marcus Hutter

144

03 Mar 2024

Align-to-Distill: Trainable Attention Alignment for Knowledge Distillation in Neural Machine Translation

334

03 Mar 2024

VNLP: Turkish NLP Package

Meliksah Turker

Mehmet Erdi Ari

Aydin Han

159

02 Mar 2024

VBART: The Turkish LLM

179

02 Mar 2024

Machine Translation in the Covid domain: an English-Irish case study for LoResMT 2021

Séamus Lankford

Haithem Afli

Andy Way

192

02 Mar 2024

Rethinking Tokenization: Crafting Better Tokenizers for Large Language Models

Jinbiao Yang

LLMAG

260

01 Mar 2024

Post-decoder Biasing for End-to-End Speech Recognition of Multi-turn Medical Interview

Heyang Liu

Yu Wang

Yanfeng Wang

278

01 Mar 2024

Compact Speech Translation Models via Discrete Speech Units Pretraining

Tsz Kin Lam

Alexandra Birch

Barry Haddow

352

29 Feb 2024

Robust Guidance for Unsupervised Data Selection: Capturing Perplexing Named Entities for Domain-Specific Machine Translation

Seunghyun Ji

Steve Andreas Immanuel

Darongsae Kwon

355

29 Feb 2024

Beyond Language Models: Byte Models are Digital World Simulators

Xu Tan

Maosong Sun

139

29 Feb 2024

Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*

João Rodrigues

213

29 Feb 2024

Tokenization Is More Than Compression

357

28 Feb 2024

A Language Model based Framework for New Concept Placement in Ontologies

243

27 Feb 2024

BioT5+: Towards Generalized Biological Understanding with IUPAC Integration and Multi-task Tuning

Rui Yan

411

27 Feb 2024

Nemotron-4 15B Technical Report

...

225

26 Feb 2024

Generative AI in Vision: A Survey on Models, Metrics and Applications

Gaurav Raut

Apoorv Singh

VLM MedIm

223

26 Feb 2024

Quantum Transformer: Accelerating model inference via quantum linear algebra

382

26 Feb 2024

Pfeed: Generating near real-time personalized feeds using precomputed embedding similarities

222

25 Feb 2024

ArabianGPT: Native Arabic GPT-based Large Language Model

204

23 Feb 2024

Representing Online Handwriting for Recognition in Large Vision-Language Models

288

23 Feb 2024

Fine-tuning Large Language Models for Domain-specific Machine Translation

192

23 Feb 2024

How Important Is Tokenization in French Medical Masked Language Models?

214

22 Feb 2024

The Impact of Word Splitting on the Semantic Content of Contextualized Word Representations

224

22 Feb 2024

OmniPred: Language Models as Universal Regressors

444

22 Feb 2024

Subobject-level Image Tokenization

629

22 Feb 2024