Title
EmbeddingGemma: Powerful and Lightweight Text Representations Henrique Schechter Vera Sahil Dua Biao Zhang Daniel M. Salz Ryan Mullins ... Raphael Hoffmann T. Warkentin Armand Joulin Tom Duerig Mojtaba Seyedhosseini VLM 291 16 0 24 Sep 2025
Trans-EnV: A Framework for Evaluating the Linguistic Robustness of LLMs Against English Varieties Jiyoung Lee Seungho Kim Jieun Han Jun-Min Lee Kitaek Kim Alice Oh E. Choi 239 2 0 27 May 2025
Charting the Landscape of African NLP: Mapping Progress and Shaping the Road Ahead Jesujoba Oluwadara Alabi Michael A. Hedderich David Ifeoluwa Adelani Dietrich Klakow 457 4 0 27 May 2025
MiLiC-Eval: Benchmarking Multilingual LLMs for China's Minority LanguagesAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Chen Zhang Mingxu Tao Zhiyuan Liao Yansong Feng 335 2 0 03 Mar 2025
Revisiting Projection-based Data Transfer for Cross-Lingual Named Entity Recognition in Low-Resource Languages Andrei Politov Oleh Shkalikov René Jäkel Michael Färber 325 0 0 30 Jan 2025
CoBa: Convergence Balancer for Multitask Finetuning of Large Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Zi Gong Hang Yu Cong Liao Bingchang Liu Chaoyu Chen Jianguo Li MoMe 141 7 0 09 Oct 2024
Multilingual Trolley Problems for Language Models Zhijing Jin Sydney Levine Max Kleiman-Weiner Giorgio Piatti Jiarui Liu ... András Strausz Mrinmaya Sachan Amélie Reymond Yejin Choi Bernhard Schölkopf LRM 335 25 0 02 Jul 2024
On the Evaluation Practices in Multilingual NLP: Can Machine Translation Offer an Alternative to Human Translations? Rochelle Choenni Sara Rajaee Christof Monz Ekaterina Shutova 287 5 0 20 Jun 2024
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian LanguagesConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Holy Lovenia Rahmad Mahendra Salsabil Maulana Akbar Lester James V. Miranda Jennifer Santoso ... Genta Indra Winata Ruochen Zhang Fajri Koto Zheng-Xin Yong Samuel Cahyawijaya 475 33 0 14 Jun 2024
IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages Harman Singh Nitish Gupta Shikhar Bharadwaj Dinesh Tewari Partha P. Talukdar ELM 218 51 0 25 Apr 2024
MaiNLP at SemEval-2024 Task 1: Analyzing Source Language Selection in Cross-Lingual Textual RelatednessInternational Workshop on Semantic Evaluation (SemEval), 2024 Shijia Zhou Huangyan Shan Barbara Plank Robert Litschko 222 2 0 03 Apr 2024
DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages Fahim Faisal Orevaoghene Ahia Aarohi Srivastava Kabir Ahuja David Chiang Yulia Tsvetkov Antonios Anastasopoulos 206 45 0 16 Mar 2024
MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling Tomasz Limisiewicz Terra Blevins Hila Gonen Orevaoghene Ahia Luke Zettlemoyer 269 28 0 15 Mar 2024
Evaluating the Elementary Multilingual Capabilities of Large Language Models with MultiQ Carolin Holtermann Paul Röttger Timm Dill Anne Lauscher ELM LRM 263 33 0 06 Mar 2024
Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet? E. Razumovskaia Ivan Vulić Anna Korhonen 201 13 0 04 Mar 2024
Aya Dataset: An Open-Access Collection for Multilingual Instruction TuningAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Shivalika Singh Freddie Vargus Daniel D'souza Börje F. Karlsson Abinaya Mahendiran ... Max Bartolo Julia Kreutzer Ahmet Üstün Marzieh Fadaee Sara Hooker 375 169 0 09 Feb 2024
Translation Errors Significantly Impact Low-Resource Languages in Cross-Lingual Learning Ashish Agrawal Barah Fazili Preethi Jyothi 227 7 0 03 Feb 2024
SQATIN: Supervised Instruction Tuning Meets Question Answering for Improved Dialogue NLU E. Razumovskaia Goran Glavaš Anna Korhonen Ivan Vulić LRM 277 6 0 16 Nov 2023
SiRA: Sparse Mixture of Low Rank Adaptation Yun Zhu Nevan Wichers Chu-Cheng Lin Xinyi Wang Tianlong Chen ... Han Lu Canoee Liu Liangchen Luo Jindong Chen Lei Meng MoE 186 35 0 15 Nov 2023
Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense RetrievalNorth American Chapter of the Association for Computational Linguistics (NAACL), 2023 Nandan Thakur Jianmo Ni Gustavo Hernández Ábrego John Wieting Jimmy J. Lin Daniel Cer RALM 419 21 0 10 Nov 2023
CUNI Submission to MRL 2023 Shared Task on Multi-lingual Multi-task Information Retrieval Jindvrich Helcl Jindvrich Libovický LRM 167 0 0 25 Oct 2023
Quantifying the Dialect Gap and its Correlates Across LanguagesConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Anjali Kantharuban Ivan Vulić Anna Korhonen 223 33 0 23 Oct 2023
Improving Cross-Lingual Transfer through Subtree-Aware Word Reordering Ofir Arviv Dmitry Nikolaev Taelin Karidi Omri Abend LRM 177 3 0 20 Oct 2023
A Systematic Study of Performance Disparities in Multilingual Task-Oriented Dialogue Systems Songbo Hu Han Zhou Moy Yuan Milan Gritta Guchun Zhang Ignacio Iacobacci Anna Korhonen Ivan Vulić 233 5 0 19 Oct 2023
FIAT: Fusing learning paradigms with Instruction-Accelerated Tuning Xinyi Wang John Wieting J. Clark CLL ALM 182 2 0 09 Sep 2023
Optimal Transport Posterior Alignment for Cross-lingual Semantic ParsingTransactions of the Association for Computational Linguistics (TACL), 2023 Tom Sherborne Tom Hosking Mirella Lapata OT 255 6 0 09 Jul 2023
Revisiting non-English Text Simplification: A Unified Multilingual BenchmarkAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Michael Joseph Ryan Tarek Naous Wei Xu 179 34 0 25 May 2023
BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual TransferNorth American Chapter of the Association for Computational Linguistics (NAACL), 2023 Akari Asai Sneha Kudugunta Xinyan Velocity Yu Terra Blevins Hila Gonen Machel Reid Yulia Tsvetkov Sebastian Ruder Hannaneh Hajishirzi 291 81 0 24 May 2023
TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse LanguagesTransactions of the Association for Computational Linguistics (TACL), 2020 J. Clark Eunsol Choi Michael Collins Dan Garrette Tom Kwiatkowski Vitaly Nikolaev J. Palomaki 536 684 0 10 Mar 2020