When Is Multilinguality a Curse? Language Modeling for 250 High- and
Low-Resource Languages

When Is Multilinguality a Curse? Language Modeling for 250 High- and Low-Resource Languages

15 November 2023

Catherine Arnett

Benjamin Bergen

Papers citing "When Is Multilinguality a Curse? Language Modeling for 250 High- and Low-Resource Languages"

16 / 16 papers shown

Title
Scaling Test-time Compute for Low-resource Languages: Multilingual Reasoning in LLMs Khanh-Tung Tran Barry O’Sullivan Hoang D. Nguyen LRM 32 0 0 02 Apr 2025
Improving Low-Resource Retrieval Effectiveness using Zero-Shot Linguistic Similarity Transfer Andreas Chari Sean MacAvaney Iadh Ounis 34 0 0 28 Mar 2025
Trustworthy Machine Learning via Memorization and the Granular Long-Tail: A Survey on Interactions, Tradeoffs, and Beyond Qiongxiu Li Xiaoyu Luo Yiyi Chen Johannes Bjerva 43 0 0 10 Mar 2025
DEPT: Decoupled Embeddings for Pre-training Language Models Alex Iacob Lorenzo Sani Meghdad Kurmanji William F. Shen Xinchi Qiu Dongqi Cai Yan Gao Nicholas D. Lane VLM 36 0 0 07 Oct 2024
BertaQA: How Much Do Language Models Know About Local Culture? Julen Etxaniz Gorka Azkune A. Soroa Oier López de Lacalle Mikel Artetxe 28 6 0 11 Jun 2024
Evaluating and Mitigating Linguistic Discrimination in Large Language Models Guoliang Dong Haoyu Wang Jun Sun Xinyu Wang 32 1 0 29 Apr 2024
On the Calibration of Massively Multilingual Language Models Kabir Ahuja Sunayana Sitaram Sandipan Dandapat Monojit Choudhury 37 16 0 21 Oct 2022
Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of Multilingual Language Models Terra Blevins Hila Gonen Luke Zettlemoyer LRM 37 26 0 24 May 2022
Match the Script, Adapt if Multilingual: Analyzing the Effect of Multilingual Pretraining on Cross-lingual Transferability Yoshinari Fujinuma Jordan L. Boyd-Graber Katharina Kann AAML 43 23 0 21 Mar 2022
Systematic Inequalities in Language Technology Performance across the World's Languages Damián E. Blasi Antonios Anastasopoulos Graham Neubig 98 130 0 13 Oct 2021
Word Acquisition in Neural Language Models Tyler A. Chang Benjamin Bergen 27 29 0 05 Oct 2021
Deduplicating Training Data Makes Language Models Better Katherine Lee Daphne Ippolito A. Nystrom Chiyuan Zhang Douglas Eck Chris Callison-Burch Nicholas Carlini SyDa 234 447 0 14 Jul 2021
AmericasNLI: Evaluating Zero-shot Natural Language Understanding of Pretrained Multilingual Models in Truly Low-resource Languages Abteen Ebrahimi Manuel Mager Arturo Oncevay Vishrav Chaudhary Luis Chiruzzo ... Graham Neubig Alexis Palmer Rolando A. Coto Solano Ngoc Thang Vu Katharina Kann 99 71 0 18 Apr 2021
How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models Phillip Rust Jonas Pfeiffer Ivan Vulić Sebastian Ruder Iryna Gurevych 69 235 0 31 Dec 2020
The Tatoeba Translation Challenge -- Realistic Data Sets for Low Resource and Multilingual MT Jörg Tiedemann 160 163 0 13 Oct 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 220 3,054 0 23 Jan 2020