SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

19 August 2018

Taku Kudo

John Richardson

ArXiv (abs)PDF HTML Github (10925★)

Papers citing "SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing"

50 / 2,064 papers shown

How do Hyenas deal with Human Speech? Speech Recognition and Translation with ConfHyena

231

20 Feb 2024

MORE-3S:Multimodal-based Offline Reinforcement Learning with Shared Semantic Spaces

Ge Zhang

231

20 Feb 2024

Emergent Word Order Universals from Cognitively-Motivated Language Models

306

19 Feb 2024

Pushing the Limits of Zero-shot End-to-End Speech Translation

268

16 Feb 2024

BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains

487

367

15 Feb 2024

Fast Vocabulary Transfer for Language Model Compression

183

15 Feb 2024

Multi-word Tokenization for Sequence Compression

203

15 Feb 2024

Knowledge of Pretrained Language Models on Surface Information of Tokens

Tatsuya Hiraoka

Naoaki Okazaki

217

15 Feb 2024

UniEnc-CASSNAT: An Encoder-only Non-autoregressive ASR for Speech SSL Models

Ruchao Fan

Natarajan Balaji Shankar

Abeer Alwan

245

14 Feb 2024

Self-consistent context aware conformer transducer for speech recognition

Konstantin Kolokolov

Pavel Pekichev

Karthik Raghunathan

171

09 Feb 2024

Text-to-Code Generation with Modality-relative Pre-training

257

08 Feb 2024

Offline Actor-Critic Reinforcement Learning Scales to Large Models

Jost Tobias Springenberg

A. Abdolmaleki

Jingwei Zhang

Oliver Groth

Michael Bloesch

...

Sarah Bechtle

Martin Riedmiller

216

08 Feb 2024

Guiding LLMs The Right Way: Fast, Non-Invasive Constrained Generation

Luca Beurer-Kellner

Marc Fischer

Martin Vechev

342

07 Feb 2024

Lens: A Knowledge-Guided Foundation Model for Network Traffic

Ziyu Yao

Bo Ji

Long Cheng

Gang Zhou

Huajie Shao

166

06 Feb 2024

Predicting positive transfer for improved low-resource speech recognition using acoustic pseudo-tokens

Nay San

Georgios Paraskevopoulos

Dan Jurafsky

174

03 Feb 2024

Towards Sustainable Workplace Mental Health: A Novel Approach to Early Intervention and Support

137

02 Feb 2024

Sequence Shortening for Context-Aware Machine Translation

Paweł Mąka

Yusuf Can Semerci

Jan Scholtes

Gerasimos Spanakis

167

02 Feb 2024

IMUGPT 2.0: Language-Based Cross Modality Transfer for Sensor-Based Human Activity Recognition

Zi-Jian Leng

Amitrajit Bhattacharjee

260

01 Feb 2024

Getting the most out of your tokenizer for pre-training and domain adaptation

Gautier Dagan

Gabriele Synnaeve

Baptiste Rozière

353

01 Feb 2024

Disentangling the Roles of Target-Side Transfer and Regularization in Multilingual Machine Translation

Yan Meng

Christof Monz

LRM

215

01 Feb 2024

Positional Encoding Helps Recurrent Neural Networks Handle a Large Vocabulary

Takashi Morita

451

31 Jan 2024

EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain

Tong Zhang

433

214

30 Jan 2024

SpeechBERTScore: Reference-Aware Automatic Evaluation of Speech Generation Leveraging NLP Evaluation Metrics

Takaaki Saeki

Soumi Maiti

Shinnosuke Takamichi

Shinji Watanabe

Hiroshi Saruwatari

221

30 Jan 2024

TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese

268

30 Jan 2024

Byte Pair Encoding Is All You Need For Automatic Bengali Speech Recognition

Ahnaf Mozib Samin

221

28 Jan 2024

Modular Adaptation of Multilingual Encoders to Written Swiss German Dialect

Jannis Vamvas

Noëmi Aepli

Rico Sennrich

260

25 Jan 2024

TURNA: A Turkish Encoder-Decoder Language Model for Enhanced Understanding and GenerationAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Gokcce Uludougan

Zeynep Yirmibecsouglu Balal

214

25 Jan 2024

MambaByte: Token-free Selective State Space Model

311

24 Jan 2024

MaLA-500: Massive Language Adaptation of Large Language Models

405

24 Jan 2024

Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech RecognisersIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

277

22 Jan 2024

Text-to-Image Cross-Modal Generation: A Systematic Review

Maciej Żelaszczyk

Jacek Mańdziuk

320

21 Jan 2024

Instructional Fingerprinting of Large Language ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Pang Wei Koh

278

21 Jan 2024

Orion-14B: Open-source Multilingual Large Language Models

Haihui Pan

139

20 Jan 2024

Improving fine-grained understanding in image-text pre-training

...

220

18 Jan 2024

Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation

Jeong Hun Yeo

290

18 Jan 2024

Deciphering Textual Authenticity: A Generalized Strategy through the Lens of Large Language Semantics for Detecting Human vs. Machine-Generated TextUSENIX Security Symposium (USENIX Security), 2024

Mazal Bethany

Brandon Wherry

Emet Bethany

Nishant Vishwamitra

Anthony Rios

Peyman Najafirad

DeLMO

223

17 Jan 2024

A Generative Adversarial Attack for Multilingual Text Classifiers

122

16 Jan 2024

Enhancing Document-level Translation of Large Language Model via Translation Mixed-instructions

Yachao Li

Junhui Li

Jing Jiang

Min Zhang

301

16 Jan 2024

Cross-Attention Watermarking of Large Language ModelsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Folco Bertini Baldassini

H. Nguyen

Ching-Chung Chang

Isao Echizen

WaLM

140

12 Jan 2024

Distilling Vision-Language Models on Millions of VideosComputer Vision and Pattern Recognition (CVPR), 2024

...

279

11 Jan 2024

A Simple Baseline for Spoken Language to Sign Language Translation with 3D AvatarsEuropean Conference on Computer Vision (ECCV), 2024

328

09 Jan 2024

Deep Learning in Physical Layer: Review on Data Driven End-to-End Communication Systems and their Enabling Semantic ApplicationsIEEE Open Journal of the Communications Society (OJ-COMSOC), 2024

Nazmul Islam

Seokjoo Shin

AI4CE

342

08 Jan 2024

An Exploratory Study on Automatic Identification of Assumptions in the Development of Deep Learning FrameworksScience of Computer Programming (SCP), 2024

Chen Yang

Peng Liang

Zinan Ma

223

08 Jan 2024

RoBERTurk: Adjusting RoBERTa for Turkish

Nuri Tas

113

07 Jan 2024

DiarizationLM: Speaker Diarization Post-Processing with Large Language Models

630

07 Jan 2024

PIXAR: Auto-Regressive Language Modeling in Pixel Space

345

06 Jan 2024

Cheetah: Natural Language Generation for 517 African LanguagesAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Ife Adebara

AbdelRahim Elmadany

Muhammad Abdul-Mageed

348

02 Jan 2024

An Empirical Study of Scaling Law for OCR

430

29 Dec 2023

SentinelLMs: Encrypted Input Adaptation and Fine-tuning of Language Models for Private and Secure InferenceAAAI Conference on Artificial Intelligence (AAAI), 2023

28 Dec 2023

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

...

Chunhua Shen

306

28 Dec 2023