Making a MIRACL: Multilingual Information Retrieval Across a Continuum of Languages

18 October 2022

David Alfonso-Hermelo

Qun Liu

Papers citing "Making a MIRACL: Multilingual Information Retrieval Across a Continuum of Languages"

36 / 36 papers shown

Title
A model and package for German ColBERT Thuong Dang Qiqi Chen VLM 66 0 0 25 Apr 2025
Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations Leonardo Ranaldi Federico Ranaldi Fabio Massimo Zanzotto Barry Haddow Alexandra Birch RALM LRM 38 0 0 07 Apr 2025
Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task Leonardo Ranaldi Barry Haddow Alexandra Birch RALM 63 1 0 04 Apr 2025
Improving Low-Resource Retrieval Effectiveness using Zero-Shot Linguistic Similarity Transfer Andreas Chari Sean MacAvaney Iadh Ounis 39 0 0 28 Mar 2025
IRSC: A Zero-shot Evaluation Benchmark for Information Retrieval through Semantic Comprehension in Retrieval-Augmented Generation Scenarios Hai Lin Shaoxiong Zhan Junyou Su Haitao Zheng Hui Wang RALM 29 1 0 24 Sep 2024
Ruri: Japanese General Text Embeddings Hayato Tsukagoshi Ryohei Sasano 24 0 0 12 Sep 2024
Pooling And Attention: What Are Effective Designs For LLM-Based Embedding Models? Yixuan Tang Yi Yang 33 3 0 04 Sep 2024
The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design Artem Snegirev Maria Tikhonova Anna Maksimova Alena Fenogenova Alexander Abramov 26 4 0 22 Aug 2024
Synergistic Approach for Simultaneous Optimization of Monolingual, Cross-lingual, and Multilingual Information Retrieval Adel Elmahdy Sheng-Chieh Lin Amin Ahmad 39 2 0 20 Aug 2024
Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models Amey Hengle Prasoon Bajpai Soham Dan Tanmoy Chakraborty LRM 29 2 0 19 Aug 2024
Hindi-BEIR : A Large Scale Retrieval Benchmark in Hindi Arkadeep Acharya Rudra Murthy Vishwajeet Kumar Jaydeep Sen 23 1 0 18 Aug 2024
Matryoshka-Adaptor: Unsupervised and Supervised Tuning for Smaller Embedding Dimensions Jinsung Yoon Raj Sinha Sercan Ö. Arik Tomas Pfister 17 1 0 17 Jul 2024
Building pre-train LLM Dataset for the INDIC Languages: a case study on Hindi Shantipriya Parida Shakshi Panwar Kusum Lata Sanskruti Mishra Sambit Sekhar 30 2 0 13 Jul 2024
Post-Hoc Answer Attribution for Grounded and Trustworthy Long Document Comprehension: Task, Insights, and Challenges Abhilasha Sancheti Koustava Goswami Balaji Vasan Srinivasan RALM 30 1 0 11 Jun 2024
KazQAD: Kazakh Open-Domain Question Answering Dataset Rustem Yeshpanov Pavel Efimov Leonid Boytsov Ardak Shalkarbayuli Pavel Braslavski RALM 28 4 0 06 Apr 2024
AttributionBench: How Hard is Automatic Attribution Evaluation? Yifei Li Xiang Yue Zeyi Liao Huan Sun HILM 27 13 0 23 Feb 2024
IndicIRSuite: Multilingual Dataset and Neural Information Models for Indian Languages Saiful Haq Ashutosh Sharma Pushpak Bhattacharyya 18 2 0 15 Dec 2023
TextGenSHAP: Scalable Post-hoc Explanations in Text Generation with Long Documents James Enouen Hootan Nakhost Sayna Ebrahimi Sercan Ö. Arik Yan Liu Tomas Pfister 33 4 0 03 Dec 2023
Search-Adaptor: Embedding Customization for Information Retrieval Jinsung Yoon Sercan Ö. Arik Yanfei Chen Tomas Pfister 20 2 0 12 Oct 2023
Language Models are Universal Embedders Xin Zhang Zehan Li Yanzhao Zhang Dingkun Long Pengjun Xie Meishan Zhang Min Zhang KELM ELM 35 6 0 12 Oct 2023
HAGRID: A Human-LLM Collaborative Dataset for Generative Information-Seeking with Attribution Ehsan Kamalloo A. Jafari Xinyu Crystina Zhang Nandan Thakur Jimmy J. Lin 18 41 0 31 Jul 2023
MegaWika: Millions of reports and their sources across 50 diverse languages Samuel Barham Orion Weller Michelle Yuan Kenton W. Murray M. Yarmohammadi ... Alexander Martin Anqi Liu Aaron Steven White Jordan L. Boyd-Graber Benjamin Van Durme SyDa 31 4 0 13 Jul 2023
DAPR: A Benchmark on Document-Aware Passage Retrieval Kexin Wang Nils Reimers Iryna Gurevych 11 5 0 23 May 2023
AfriQA: Cross-lingual Open-Retrieval Question Answering for African Languages Odunayo Ogundepo T. Gwadabe Clara E. Rivera J. Clark Sebastian Ruder ... Neo Putini Ndumiso Mngoma Priscilla Amuok R. Iro Sonia Adhiambo34 33 13 0 11 May 2023
Evaluating Embedding APIs for Information Retrieval Ehsan Kamalloo Xinyu Crystina Zhang Odunayo Ogundepo Nandan Thakur David Alfonso-Hermelo Mehdi Rezagholizadeh Jimmy J. Lin RALM 27 19 0 10 May 2023
Zero-Shot Listwise Document Reranking with a Large Language Model Xueguang Ma Xinyu Crystina Zhang Ronak Pradeep Jimmy J. Lin 65 50 0 03 May 2023
Rethinking the Role of Token Retrieval in Multi-Vector Retrieval Jinhyuk Lee Zhuyun Dai Sai Meher Karthik Duddu Tao Lei Iftekhar Naim Ming-Wei Chang Vincent Zhao 17 15 0 04 Apr 2023
AToMiC: An Image/Text Retrieval Test Collection to Support Multimedia Content Creation Jheng-Hong Yang Carlos Lassance Rafael Sampaio de Rezende Krishna Srinivasan Miriam Redi S. Clinchant Jimmy J. Lin 37 12 0 04 Apr 2023
Spacerini: Plug-and-play Search Engines with Pyserini and Hugging Face Christopher Akiki Odunayo Ogundepo Aleksandra Piktus Xinyu Crystina Zhang Akintunde Oladipo Jimmy J. Lin Martin Potthast 23 5 0 28 Feb 2023
Enhancing Model Performance in Multilingual Information Retrieval with Comprehensive Data Engineering Techniques Qi Zhang Zijian Yang Yi-Li Huang Ze Chen Zijian Cai Kangxu Wang Jiewen Zheng Jiarong He Jin Gao LRM VLM 12 1 0 14 Feb 2023
Alloprof: a new French question-answer education dataset and its use in an information retrieval case study Antoine Lefebvre-Brossard Stephane Gazaille Michel C. Desmarais AI4Ed 24 1 0 10 Feb 2023
Moving Beyond Downstream Task Accuracy for Information Retrieval Benchmarking Keshav Santhanam Jon Saad-Falcon M. Franz Omar Khattab Avirup Sil Radu Florian Md Arafat Sultan Salim Roukos Matei A. Zaharia Christopher Potts OffRL 24 10 0 02 Dec 2022
MTEB: Massive Text Embedding Benchmark Niklas Muennighoff Nouamane Tazi L. Magne Nils Reimers 26 370 0 13 Oct 2022
Towards Best Practices for Training Multilingual Dense Retrieval Models Xinyu Crystina Zhang Kelechi Ogueji Xueguang Ma Jimmy J. Lin RALM 24 34 0 05 Apr 2022
BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models Nandan Thakur Nils Reimers Andreas Rucklé Abhishek Srivastava Iryna Gurevych VLM 229 964 0 17 Apr 2021
Pretrained Transformers for Text Ranking: BERT and Beyond Jimmy J. Lin Rodrigo Nogueira Andrew Yates VLM 219 608 0 13 Oct 2020