The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation

Transactions of the Association for Computational Linguistics (TACL), 2021

6 June 2021

Francisco Guzman

Angela Fan

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation"

50 / 244 papers shown

ELR-1000: A Community-Generated Dataset for Endangered Indic Indigenous Languages

30 Nov 2025

IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

117

29 Nov 2025

Dealing with the Hard Facts of Low-Resource African NLP

Yacouba Diarra

Nouhoum Souleymane Coulibaly

23 Nov 2025

Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

...

159

17 Nov 2025

Ibom NLP: A Step Toward Inclusive Natural Language Processing for Nigeria's Minority Languages

Oluwadara Kalejaiye

Luel Hagos Beyene

David Ifeoluwa Adelani

Mmekut-Mfon Gabriel Edet

A. D. Akpan

E. Urua

Anietie U Andy

09 Nov 2025

Segmentation Beyond Defaults: Asymmetrical Byte Pair Encoding for Optimal Machine Translation Performance

Saumitra Yadav

Manish Shrivastava

161

05 Nov 2025

Charting the European LLM Benchmarking Landscape: A New Taxonomy and a Set of Best Practices

Špela Vintar

Taja Kuzman Pungeršek

Mojca Brglez

Nikola Ljubešić

183

28 Oct 2025

Are the LLMs Capable of Maintaining at Least the Language Genus?

24 Oct 2025

Model-Aware Tokenizer Transfer

Mykola Haltiuk

Aleksander Smywiński-Pohl

113

24 Oct 2025

ARC-Encoder: learning compressed text representations for large language models

168

23 Oct 2025

Zero-Shot Performance Prediction for Probabilistic Scaling Laws

132

19 Oct 2025

Active Model Selection for Large Language Models

127

10 Oct 2025

Multilingual Routing in Mixture-of-Experts

152

06 Oct 2025

Transcribe, Translate, or Transliterate: An Investigation of Intermediate Representations in Spoken Language Models

Tolúl\d{o}pé Ògúnrèmí

Christopher D. Manning

Dan Jurafsky

Karen Livescu

AuLLM

207

02 Oct 2025

Self-Speculative Biased Decoding for Faster Re-Translation

26 Sep 2025

SiniticMTError: A Machine Translation Dataset with Error Annotations for Sinitic Languages

Hannah Liu

Junghyun Min

Ethan Yue Heng Cheung

...

Richard Tzong-Han Tsai

En-Shiun Annie Lee

24 Sep 2025

CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset

...

144

17 Sep 2025

Bhaasha, Bhasa, Zaban: A Survey for Low-Resourced Languages in South Asia - Current Stage and Challenges

Sampoorna Poria

Xiaolei Huang

200

15 Sep 2025

MoVoC: Morphology-Aware Subword Construction for Geez Script Languages

Hailay Teklehaymanot

Dren Fazlija

Wolfgang Nejdl

113

10 Sep 2025

$What if I ask in \textit{alia lingua}? Measuring Functional Similarity Across Languages$

What if I ask in \textit{alia lingua}? Measuring Functional Similarity Across Languages

Ponnurangam Kumaraguru

122

04 Sep 2025

Expanding the WMT24++ Benchmark with Rumantsch Grischun, Sursilvan, Sutsilvan, Surmiran, Puter, and Vallader

Jannis Vamvas

Ignacio Pérez Prat

Not Battesta Soliva

Sandra Baltermia-Guetg

...

108

03 Sep 2025

Languages Still Left Behind: Toward a Better Multilingual Machine Translation Benchmark

28 Aug 2025

The Mediomatix Corpus: Parallel Data for Romansh Idioms via Comparable Schoolbooks

120

22 Aug 2025

ZPD-SCA: Unveiling the Blind Spots of LLMs in Assessing Students' Cognitive Abilities

...

160

20 Aug 2025

LoraxBench: A Multitask, Multilingual Benchmark Suite for 20 Indonesian Languages

Alham Fikri Aji

Trevor Cohn

114

17 Aug 2025

SEA-BED: Southeast Asia Embedding Benchmark

Wuttikorn Ponwitayarat

...

Ekapol Chuangsuwanich

Sarana Nutanong

Peerat Limkonchotiwat

162

17 Aug 2025

Utilizing Multilingual Encoders to Improve Large Language Models for Low-Resource LanguagesMoratuwa Engineering Research Conference (MERCon), 2025

Mokanarangan Thayaparan

219

12 Aug 2025

TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation

A. Zebaze

Benoît Sagot

Rachel Bawden

104

12 Aug 2025

The TUB Sign Language Corpus CollectionInternational Conference on Intelligent Virtual Agents (IVA), 2025

Eleftherios Avramidis

...

190

07 Aug 2025

Uncertainty-driven Embedding Convolution

279

28 Jul 2025

Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters

...

308

18 Jul 2025

Translationese-index: Using Likelihood Ratios for Graded and Generalizable Measurement of Translationese

134

16 Jul 2025

RedOne: Revealing Domain-specific LLM Post-Training in Social Networking Services

...

210

13 Jul 2025

Eka-Eval: An Evaluation Framework for Low-Resource Multilingual Large Language Models

173

02 Jul 2025

mSTEB: Massively Multilingual Evaluation of LLMs on Speech and Text Tasks

Luel Hagos Beyene

Vivek Verma

Min Ma

Jesujoba Oluwadara Alabi

Fabian David Schmidt

Joyce Nakatumba-Nabende

David Ifeoluwa Adelani

332

10 Jun 2025

Exploring the Impact of Temperature on Large Language Models:Hot or Cold?Procedia Computer Science (PCS), 2025

165

08 Jun 2025

Exploring In-context Example Generation for Machine TranslationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

168

31 May 2025

Unsupervised Word-level Quality Estimation for Machine Translation Through the Lens of Annotators (Dis)agreement

280

29 May 2025

Charting the Landscape of African NLP: Mapping Progress and Shaping the Road Ahead

Jesujoba Oluwadara Alabi

Michael A. Hedderich

David Ifeoluwa Adelani

Dietrich Klakow

477

27 May 2025

Multilingual Pretraining for Pixel Language Models

339

27 May 2025

MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs

Zaid Alyafeai

Maged S. Al-Shaibani

Bernard Ghanem

289

26 May 2025

Building a Functional Machine Translation Corpus for Kpelle

Kweku Andoh Yamoah

Jackson Weako

Emmanuel J. Dorley

185

24 May 2025

NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities

Muhammad Abdul-Mageed

286

23 May 2025

MAPS: A Multilingual Benchmark for Global Agent Performance and Security

Seraphina Goldfarb-Tarrant

Roman Vainshtein

228

21 May 2025

Scaling Low-Resource MT via Synthetic Data Generation with LLMs

344

20 May 2025

HausaNLP: Current Status, Challenges and Future Directions for Hausa Natural Language Processing

Shamsuddeen Hassan Muhammad

...

403

20 May 2025

MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language

433

20 May 2025

From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora

371

20 May 2025

Granary: Speech Recognition and Translation Dataset in 25 European Languages

...

244

19 May 2025

Unveiling Language-Specific Features in Large Language Models via Sparse AutoencodersAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

361

08 May 2025