SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

19 August 2018

Taku Kudo

John Richardson

ArXiv (abs)PDF HTML Github (10925★)

Papers citing "SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing"

50 / 2,063 papers shown

An Early Investigation into the Utility of Multimodal Large Language Models in Medical Imaging

Md. Rafiul Biswas

174

02 Jun 2024

μ

LO: Compute-Efficient Meta-Generalization of Learned Optimizers

Benjamin Thérien

Charles-Étienne Joseph

498

31 May 2024

How Multilingual Are Large Language Models Fine-Tuned for Translation?

Aquia Richburg

Marine Carpuat

LRM

175

30 May 2024

Critical Learning Periods: Leveraging Early Training Dynamics for Efficient Data Pruning

362

29 May 2024

X-VILA: Cross-Modality Alignment for Large Language Model

De-An Huang

...

Song Han

Dan Xu

Pavlo Molchanov

Hongxu Yin

MLLM VLM

268

29 May 2024

MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series

Ge Zhang

Jiaheng Liu

...

Wanli Ouyang

311

29 May 2024

Integrating Multi-scale Contextualized Information for Byte-based Neural Machine Translation

Langlin Huang

Yang Feng

247

29 May 2024

Optimizing Foundation Model Inference on a Many-tiny-core Open-source RISC-V Platform

Daniele Jahier Pagliari

Luca Bompani

Luca Benini

297

29 May 2024

Enhancing Descriptive Image Quality Assessment with A Large-scale Multi-modal DatasetIEEE Transactions on Image Processing (TIP), 2024

460

29 May 2024

Wavelet-Based Image Tokenizer for Vision Transformers

Zhenhai Zhu

Radu Soricut

ViT

234

28 May 2024

Multi-objective Representation for Numbers in Clinical Narratives: A CamemBERT-Bio-Based Alternative to Large-Scale LLMs

Boammani Aser Lompo

Thanh-Dung Le

375

28 May 2024

Empowering Character-level Text Infilling by Eliminating Sub-Tokens

172

27 May 2024

Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization

482

27 May 2024

MoEUT: Mixture-of-Experts Universal Transformers

Christopher D. Manning

MoE

256

25 May 2024

Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models

Chae Won Kim

339

24 May 2024

Revisiting MoE and Dense Speed-Accuracy Comparisons for LLM Training

Xianzhi Du

134

23 May 2024

A Survey on Vision-Language-Action Models for Embodied AI

885

166

23 May 2024

Why Not Transform Chat Large Language Models to Non-English?

...

338

22 May 2024

Non-autoregressive real-time Accent Conversion model with voice cloning

Vladimir Nechaev

Sergey Kosyakov

233

21 May 2024

Targeted Multilingual Adaptation for Low-resource Language Families

Shane Steinert-Threlkeld

219

20 May 2024

FAME-MT Dataset: Formality Awareness Made Easy for Machine Translation Purposes

Dawid Wi'sniewski

Zofia Rostek

Artur Nowakowski

244

20 May 2024

Chasing COMET: Leveraging Minimum Bayes Risk Decoding for Self-Improving Machine Translation

238

20 May 2024

Automated Radiology Report Generation: A Review of Recent AdvancesIEEE Reviews in Biomedical Engineering (RBME), 2024

249

17 May 2024

Libra: Building Decoupled Vision System on Large Language ModelsInternational Conference on Machine Learning (ICML), 2024

195

16 May 2024

TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated DataInternational Conference on Computational Linguistics (COLING), 2024

260

16 May 2024

Unsupervised Extractive Dialogue Summarization in Hyperdimensional SpaceIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

222

16 May 2024

Chameleon: Mixed-Modal Early-Fusion Foundation Models

Chameleon Team

MLLM

583

629

16 May 2024

When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models

...

367

16 May 2024

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

211

15 May 2024

A Japanese-Chinese Parallel Corpus Using Crowdsourcing for Web Mining

160

15 May 2024

Challenges and Opportunities in Text Generation Explainability

Kenza Amara

Rita Sevastjanova

Mennatallah El-Assady

SILM

207

14 May 2024

VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence ModelingInternational Conference on Machine Learning (ICML), 2024

Siyuan Li

Zedong Wang

Zicheng Liu

Di Wu

Cheng Tan

Jiangbin Zheng

Yufei Huang

Stan Z. Li

214

13 May 2024

An Empirical Study on the Robustness of Massively Multilingual Neural Machine TranslationInternational Conference on Language Resources and Evaluation (LREC), 2024

Supryadi Supryadi

Leiyu Pan

Deyi Xiong

171

13 May 2024

Zero-Shot Tokenizer TransferNeural Information Processing Systems (NeurIPS), 2024

278

13 May 2024

DEPTH: Discourse Education through Pre-Training Hierarchically

318

13 May 2024

MedVersa: A Generalist Foundation Model for Medical Image Interpretation

434

13 May 2024

Constructing a BPE Tokenization DFA

Martin Berglund

Willeke Martens

Brink van der Merwe

161

13 May 2024

SaudiBERT: A Large Language Model Pretrained on Saudi Dialect Corpora

Faisal Qarah

206

10 May 2024

Kreyòl-MT: Building MT for Latin American, Caribbean and Colonial African Creole LanguagesNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Nathaniel R. Robinson

...

Matthew Dean Stutzman

Bismarck Odoom

Sanjeev Khudanpur

Stephen D. Richardson

Kenton Murray

MoE

254

08 May 2024

Revisiting character-level adversarial attacks

244

07 May 2024

Position: Leverage Foundational Models for Black-Box OptimizationInternational Conference on Machine Learning (ICML), 2024

417

06 May 2024

Revisiting N-Gram Models: Their Impact in Modern Neural Networks for Handwritten Text Recognition

Solène Tarride

Christopher Kermorvant

169

30 Apr 2024

Unknown Script: Impact of Script on Cross-Lingual Transfer

Wondimagegnhue Tufa

Ilia Markov

Piek Vossen

382

29 Apr 2024

Decoding Radiologists' Intentions: A Novel System for Accurate Region Identification in Chest X-ray Image Analysis

127

29 Apr 2024

A cost minimization approach to fix the vocabulary size in a tokenizer for an End-to-End ASR system

Sunil Kumar Kopparapu

Ashish Panda

132

29 Apr 2024

PatentGPT: A Large Language Model for Intellectual Property

...

444

28 Apr 2024

Can Perplexity Predict Fine-tuning Performance? An Investigation of Tokenization Effects on Sequential Language Models for Nepali

285

28 Apr 2024

Scaffold-BPE: Enhancing Byte Pair Encoding with Simple and Effective Scaffold Token Removal

Hui Chen

225

27 Apr 2024

Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities

323

112

27 Apr 2024

Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model

364

25 Apr 2024