MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering

30 July 2020

Papers citing "MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering"

50 / 100 papers shown

Title
CLIRudit: Cross-Lingual Information Retrieval of Scientific Documents Francisco Valentini Diego Kozlowski Vincent Larivière 20 0 0 22 Apr 2025
NoTeS-Bank: Benchmarking Neural Transcription and Search for Scientific Notes Understanding Aniket Pal Sanket Biswas Alloy Das Ayush Lodh Priyanka Banerjee Soumitri Chattopadhyay Dimosthenis Karatzas Josep Lladós C. V. Jawahar VLM 32 0 0 12 Apr 2025
Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations Leonardo Ranaldi Federico Ranaldi Fabio Massimo Zanzotto Barry Haddow Alexandra Birch RALM LRM 38 0 0 07 Apr 2025
Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task Leonardo Ranaldi Barry Haddow Alexandra Birch RALM 63 1 0 04 Apr 2025
DaKultur: Evaluating the Cultural Awareness of Language Models for Danish with Native Speakers Max Müller-Eberstein Mike Zhang Elisa Bassignana Peter Brunsgaard Trolle Rob van der Goot ELM 39 0 0 03 Apr 2025
On the Consistency of Multilingual Context Utilization in Retrieval-Augmented Generation Jirui Qi Raquel Fernández Arianna Bisazza RALM 58 0 0 01 Apr 2025
Extracting and Emulsifying Cultural Explanation to Improve Multilingual Capability of LLMs Hamin Koo Jaehyung Kim 41 0 0 07 Mar 2025
Enhancing Non-English Capabilities of English-Centric Large Language Models through Deep Supervision Fine-Tuning Wenshuai Huo Xiaocheng Feng Yichong Huang Chengpeng Fu Baohang Li ... Dandan Tu Duyu Tang Yunfei Lu Hui Wang Bing Qin 58 1 0 03 Mar 2025
Few-Shot Multilingual Open-Domain QA from 5 Examples Fan Jiang Tom Drummond Trevor Cohn 48 0 0 27 Feb 2025
Multilingual != Multicultural: Evaluating Gaps Between Multilingual Capabilities and Cultural Alignment in LLMs Jonathan Rystrøm Hannah Rose Kirk Scott A. Hale 44 2 0 23 Feb 2025
Multilingual Non-Factoid Question Answering with Answer Paragraph Selection Ritwik Mishra Sreeram Vennam R. Shah Ponnurangam Kumaraguru 93 0 0 20 Feb 2025
A Collection of Question Answering Datasets for Norwegian Vladislav Mikhailov Petter Mæhlum Victoria Ovedie Chruickshank Langø Erik Velldal Lilja Øvrelid RALM 31 4 0 19 Jan 2025
SandboxAQ's submission to MRL 2024 Shared Task on Multi-lingual Multi-task Information Retrieval Isidora Chara Tourni Sayontan Ghosh Brenda Miao Constantijn van der Poel LRM 28 0 0 28 Oct 2024
Unlocking Markets: A Multilingual Benchmark to Cross-Market Question Answering Yifei Yuan Yang Deng Anders Søgaard Mohammad Aliannejadi 23 0 0 24 Sep 2024
IRSC: A Zero-shot Evaluation Benchmark for Information Retrieval through Semantic Comprehension in Retrieval-Augmented Generation Scenarios Hai Lin Shaoxiong Zhan Junyou Su Haitao Zheng Hui Wang RALM 23 1 0 24 Sep 2024
Ruri: Japanese General Text Embeddings Hayato Tsukagoshi Ryohei Sasano 24 0 0 12 Sep 2024
Developing PUGG for Polish: A Modern Approach to KBQA, MRC, and IR Dataset Construction Albert Sawczyn Katsiaryna Viarenich Konrad Wojtasik Aleksandra Domogała Marcin Oleksy Maciej Piasecki Tomasz Kajdanowicz 26 0 0 05 Aug 2024
mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval Xin Zhang Yanzhao Zhang Dingkun Long Wen Xie Ziqi Dai ... Pengjun Xie Fei Huang Meishan Zhang Wenjie Li Min Zhang 35 73 0 29 Jul 2024
sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting Sanchit Ahuja Kumar Tanmay Hardik Hansrajbhai Chauhan Barun Patra Kriti Aggarwal ... Tejas I. Dhamecha Ahmed Awadallah Monojit Choudhary Vishrav Chaudhary Sunayana Sitaram 27 3 0 13 Jul 2024
Multilingual Trolley Problems for Language Models Zhijing Jin Sydney Levine Max Kleiman-Weiner Giorgio Piatti Jiarui Liu ... András Strausz Mrinmaya Sachan Rada Mihalcea Yejin Choi Bernhard Schölkopf LRM 43 4 0 02 Jul 2024
Retrieval-augmented generation in multilingual settings Nadezhda Chirkova David Rau Hervé Déjean Thibault Formal S. Clinchant Vassilina Nikoulina RALM 30 15 0 01 Jul 2024
BERGEN: A Benchmarking Library for Retrieval-Augmented Generation David Rau Hervé Déjean Nadezhda Chirkova Thibault Formal Shuai Wang Vassilina Nikoulina S. Clinchant 45 10 0 01 Jul 2024
CaLMQA: Exploring culturally specific long-form question answering across 23 languages Shane Arora Marzena Karpinska Hung-Ting Chen Ipsita Bhattacharjee Mohit Iyyer Eunsol Choi HILM 43 11 0 25 Jun 2024
Large Language Models Are Cross-Lingual Knowledge-Free Reasoners Peng Hu Sizhe Liu Changjiang Gao Xin Huang Xue Han Junlan Feng Chao Deng Shujian Huang LRM 31 1 0 24 Jun 2024
Teaching LLMs to Abstain across Languages via Multilingual Feedback Shangbin Feng Weijia Shi Yike Wang Wenxuan Ding Orevaoghene Ahia Shuyue Stella Li Vidhisha Balachandran Sunayana Sitaram Yulia Tsvetkov 65 4 0 22 Jun 2024
1+1>2: Can Large Language Models Serve as Cross-Lingual Knowledge Aggregators? Yue Huang Chenrui Fan Yuan Li Siyuan Wu Tianyi Zhou Xiangliang Zhang Lichao Sun 53 3 0 20 Jun 2024
Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models Akchay Srivastava Atif Memon ELM 40 1 0 19 Jun 2024
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages Holy Lovenia Rahmad Mahendra Salsabil Maulana Akbar Lester James Validad Miranda Jennifer Santoso ... Genta Indra Winata Ruochen Zhang Fajri Koto Zheng-Xin Yong Samuel Cahyawijaya 77 9 0 14 Jun 2024
SciQAG: A Framework for Auto-Generated Science Question Answering Dataset with Fine-grained Evaluation Yuwei Wan Yixuan Liu Aswathy Ajith Clara Grazian B. Hoex Wenjie Zhang Chunyu Kit Tong Xie Ian Foster 21 7 0 16 May 2024
UQA: Corpus for Urdu Question Answering Samee Arif Sualeha Farid Awais Athar Agha Ali Raza 30 4 0 02 May 2024
CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge Yu Ying Chiu Amirhossein Ajalloeian Maria Antoniak Chan Young Park Shuyue Stella Li Mehar Bhatia Sahithya Ravi Yulia Tsvetkov Vered Shwartz Yejin Choi 36 20 0 10 Apr 2024
KazQAD: Kazakh Open-Domain Question Answering Dataset Rustem Yeshpanov Pavel Efimov Leonid Boytsov Ardak Shalkarbayuli Pavel Braslavski RALM 28 4 0 06 Apr 2024
Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models Chaoqun Liu Wenxuan Zhang Yiran Zhao A. Luu Lidong Bing LRM 35 9 0 15 Mar 2024
Pre-training Cross-lingual Open Domain Question Answering with Large-scale Synthetic Supervision Fan Jiang Tom Drummond Trevor Cohn CLIP ELM LRM 26 3 0 26 Feb 2024
OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models Yang Janet Liu Meng Xu Shuo Wang Liner Yang Haoyu Wang ... Cunliang Kong Yun-Nung Chen Yang Liu Maosong Sun Erhong Yang ELM LRM 36 1 0 21 Feb 2024
Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource-Rich Languages Yuan Zhang Yile Wang Zijun Liu Shuo Wang Xiaolong Wang Peng Li Maosong Sun Yang Janet Liu LRM 27 9 0 19 Feb 2024
InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling Yuchun Miao Sen Zhang Liang Ding Rong Bao Lefei Zhang Dacheng Tao 22 12 0 14 Feb 2024
Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model A. Ustun Viraat Aryabumi Zheng-Xin Yong Wei-Yin Ko Daniel D'souza ... Shayne Longpre Niklas Muennighoff Marzieh Fadaee Julia Kreutzer Sara Hooker ALM ELM SyDa LRM 27 193 0 12 Feb 2024
What is "Typological Diversity" in NLP? Esther Ploeger Wessel Poelman Miryam de Lhoneux Johannes Bjerva 22 2 0 06 Feb 2024
BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation Jianlv Chen Shitao Xiao Peitian Zhang Kun Luo Defu Lian Zheng Liu 115 323 0 05 Feb 2024
Building Efficient and Effective OpenQA Systems for Low-Resource Languages Emrah Budur Riza Ozccelik Dilara Soylu Omar Khattab Tunga Güngör Christopher Potts 30 1 0 07 Jan 2024
Increasing Coverage and Precision of Textual Information in Multilingual Knowledge Graphs Simone Conia Min Li Daniel Lee U. F. Minhas Ihab F. Ilyas Yunyao Li 65 8 0 27 Nov 2023
Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval Nandan Thakur Jianmo Ni Gustavo Hernández Ábrego John Wieting Jimmy J. Lin Daniel Matthew Cer RALM 29 12 0 10 Nov 2023
GraphextQA: A Benchmark for Evaluating Graph-Enhanced Large Language Models Yuanchun Shen Ruotong Liao Zhen Han Yunpu Ma Volker Tresp 24 1 0 12 Oct 2023
Promoting Generalized Cross-lingual Question Answering in Few-resource Scenarios via Self-knowledge Distillation C. Carrino Carlos Escolano José A. R. Fonollosa 11 1 0 29 Sep 2023
MegaWika: Millions of reports and their sources across 50 diverse languages Samuel Barham Orion Weller Michelle Yuan Kenton W. Murray M. Yarmohammadi ... Alexander Martin Anqi Liu Aaron Steven White Jordan L. Boyd-Graber Benjamin Van Durme SyDa 26 4 0 13 Jul 2023
PolyLM: An Open Source Polyglot Large Language Model Xiangpeng Wei Hao-Ran Wei Huan Lin Tianhao Li Pei Zhang ... Yu Bowen Dayiheng Liu Baosong Yang Fei Huang Jun Xie LRM 32 55 0 12 Jul 2023
BLUEX: A benchmark based on Brazilian Leading Universities Entrance eXams Thales Sales Almeida Thiago Laitz Giovana K. Bonás Rodrigo Nogueira ELM 16 5 0 11 Jul 2023
On Evaluating Multilingual Compositional Generalization with Translated Datasets Zi Wang Daniel Hershcovich 18 7 0 20 Jun 2023
Revisiting non-English Text Simplification: A Unified Multilingual Benchmark Michael Joseph Ryan Tarek Naous Wei-ping Xu 24 24 0 25 May 2023