BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation

5 February 2024

Jianlv Chen

Shitao Xiao

Peitian Zhang

Kun Luo

Defu Lian

Zheng Liu

ArXiv PDF HTML

Papers citing "BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation"

21 / 21 papers shown

Title
Tevatron 2.0: Unified Document Retrieval Toolkit across Scale, Language, and Modality Xueguang Ma Luyu Gao Shengyao Zhuang Jiaqi Samantha Zhan Jamie Callan Jimmy Lin 12 20 0 05 May 2025
Scalable Unit Harmonization in Medical Informatics Using Bi-directional Transformers and Bayesian-Optimized BM25 and Sentence Embedding Retrieval Jordi de la Torre 16 8 0 01 May 2025
DNB-AI-Project at SemEval-2025 Task 5: An LLM-Ensemble Approach for Automated Subject Indexing Lisa Kluge Maximilian Kähler 44 21 0 30 Apr 2025
Can LLMs Detect Intrinsic Hallucinations in Paraphrasing and Machine Translation? Evangelia Gogoulou Shorouq Zahra Liane Guillou Luise Dürlich Joakim Nivre HILM LRM 35 13 0 29 Apr 2025
Are Information Retrieval Approaches Good at Harmonising Longitudinal Survey Questions in Social Science? Wing Yan Li Zeqiang Wang Jon Johnson Suparna De 26 13 0 29 Apr 2025
Antidote: A Unified Framework for Mitigating LVLM Hallucinations in Counterfactual Presupposition and Object Perception Yuanchen Wu Lu Zhang Hang Yao Junlong Du Ke Yan Shouhong Ding Yunsheng Wu X. Li MLLM 47 45 0 29 Apr 2025
Reconstructing Context: Evaluating Advanced Chunking Strategies for Retrieval-Augmented Generation Carlo Merola Jaspinder Singh RALM 28 17 0 28 Apr 2025
Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation Qianren Mao Qili Zhang Hanwen Hao Zhentao Han Runhua Xu ... Bo Li Y. Song Jin Dong Jianxin Li Philip S. Yu 55 95 0 27 Apr 2025
DualRAG: A Dual-Process Approach to Integrate Reasoning and Retrieval for Multi-Hop Question Answering Rong Cheng J. Liu Yan Zheng Fei Ni Jiazhen Du Hangyu Mao Fuzheng Zhang Bo-Lan Wang Jianye Hao LRM 39 39 0 25 Apr 2025
LRAGE: Legal Retrieval Augmented Generation Evaluation Tool Minhu Park Hongseok Oh Eunkyung Choi Wonseok Hwang AILaw RALM ELM 96 28 0 02 Apr 2025
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models Hieu Man Nghia Trung Ngo Viet Dac Lai Ryan Rossi Franck Dernoncourt T. Nguyen 28 62 0 01 Jan 2025
FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" Yifei Ming Senthil Purushwalkam Shrey Pandit Zixuan Ke Xuan-Phi Nguyen Caiming Xiong Shafiq R. Joty HILM 93 71 0 30 Sep 2024
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models Kaichen Zhang Bo Li Peiyuan Zhang Fanyi Pu Joshua Adrian Cahyono ... Shuai Liu Yuanhan Zhang Jingkang Yang Chunyuan Li Ziwei Liu 52 71 0 17 Jul 2024
RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder Shitao Xiao Zheng Liu Yingxia Shao Zhao Cao RALM 92 61 0 24 May 2022
Text and Code Embeddings by Contrastive Pre-Training Arvind Neelakantan Tao Xu Raul Puri Alec Radford Jesse Michael Han ... Tabarak Khan Toki Sherbakov Joanne Jang Peter Welinder Lilian Weng SSL AI4TS 165 289 0 24 Jan 2022
RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking Ruiyang Ren Yingqi Qu Jing Liu Wayne Xin Zhao Qiaoqiao She Hua-Hong Wu Haifeng Wang Ji-Rong Wen 119 210 0 14 Oct 2021
BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models Nandan Thakur Nils Reimers Andreas Rucklé Abhishek Srivastava Iryna Gurevych VLM 229 713 0 17 Apr 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 217 1,427 0 31 Dec 2020
RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering Yingqi Qu Yuchen Ding Jing Liu Kai Liu Ruiyang Ren Xin Zhao Daxiang Dong Hua-Hong Wu Haifeng Wang RALM OffRL 186 516 0 16 Oct 2020
Pretrained Transformers for Text Ranking: BERT and Beyond Jimmy J. Lin Rodrigo Nogueira Andrew Yates VLM 198 510 0 13 Oct 2020
PubMedQA: A Dataset for Biomedical Research Question Answering Qiao Jin Bhuwan Dhingra Zhengping Liu William W. Cohen Xinghua Lu 183 530 0 13 Sep 2019