How to Train Your DRAGON: Diverse Augmentation Towards Generalizable Dense Retrieval

15 February 2023

Yashar Mehdad

Papers citing "How to Train Your DRAGON: Diverse Augmentation Towards Generalizable Dense Retrieval"

26 / 26 papers shown

Title
Effective Inference-Free Retrieval for Learned Sparse Representations F. M. Nardini Thong Nguyen Cosimo Rulli Rossano Venturini Andrew Yates RALM 33 0 0 30 Apr 2025
Unsupervised Corpus Poisoning Attacks in Continuous Space for Dense Retrieval Yongkang Li Panagiotis Eustratiadis Simon Lupart Evangelos Kanoulas AAML 46 0 0 24 Apr 2025
Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling Hengran Zhang Keping Bi J. Guo Xiaojie Sun Shihao Liu Daiting Shi Dawei Yin Xueqi Cheng RALM 66 0 0 07 Apr 2025
Scaling Sparse and Dense Retrieval in Decoder-Only LLMs Hansi Zeng Julian Killingback Hamed Zamani RALM 67 1 0 24 Feb 2025
SimRAG: Self-Improving Retrieval-Augmented Generation for Adapting Large Language Models to Specialized Domains Ran Xu Hui Liu Sreyashi Nag Zhenwei Dai Yaochen Xie ... Chen Luo Yang Li Joyce C. Ho Carl Yang Qi He RALM 68 8 0 28 Jan 2025
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs Sheng-Chieh Lin Chankyu Lee M. Shoeybi Jimmy J. Lin Bryan Catanzaro Wei Ping 62 10 0 04 Nov 2024
RuleRAG: Rule-Guided Retrieval-Augmented Generation with Language Models for Question Answering Zhongwu Chen Chengjin Xu Dingmin Wang Zhen Huang Yong Dou Xuhui Jiang Jian Guo RALM 93 1 0 15 Oct 2024
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities Peng-Tao Xu Wei Ping Xianchao Wu Zihan Liu M. Shoeybi Mohammad Shoeybi Bryan Catanzaro RALM 44 14 0 19 Jul 2024
Chain of Agents: Large Language Models Collaborating on Long-Context Tasks Yusen Zhang Ruoxi Sun Yanfei Chen Tomas Pfister Rui Zhang Sercan Ö. Arik RALM AI4CE LLMAG 42 28 0 04 Jun 2024
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution Minghan Li Xilun Chen Ari Holtzman Beidi Chen Jimmy Lin Wen-tau Yih Xi Victoria Lin RALM BDL 108 10 0 29 May 2024
BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers Ran Xu Wenqi Shi Yue Yu Yuchen Zhuang Yanqiao Zhu M. D. Wang Joyce C. Ho Chao Zhang Carl Yang LM&MA 40 19 0 29 Apr 2024
The Faiss library Matthijs Douze Alexandr Guzhva Chengqi Deng Jeff Johnson Gergely Szilvasy Pierre-Emmanuel Mazaré Maria Lomeli Lucas Hosseini Hervé Jégou 30 145 0 16 Jan 2024
Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval Nandan Thakur Jianmo Ni Gustavo Hernández Ábrego John Wieting Jimmy J. Lin Daniel Matthew Cer RALM 21 12 0 10 Nov 2023
RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder Shitao Xiao Zheng Liu Yingxia Shao Zhao Cao RALM 115 105 0 24 May 2022
PLAID: An Efficient Engine for Late Interaction Retrieval Keshav Santhanam Omar Khattab Christopher Potts Matei A. Zaharia VLM 58 72 0 19 May 2022
Zero-Shot Dense Retrieval with Momentum Adversarial Domain Invariant Representations Ji Xin Chenyan Xiong A. Srinivasan Ankita Sharma Damien Jose Paul N. Bennett VLM 78 41 0 14 Oct 2021
RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking Ruiyang Ren Yingqi Qu Jing Liu Wayne Xin Zhao Qiaoqiao She Hua-Hong Wu Haifeng Wang Ji-Rong Wen 124 244 0 14 Oct 2021
Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a Sparse One? Xilun Chen Kushal Lakhotia Barlas Oğuz Anchit Gupta Patrick Lewis Stanislav Peshterliev Yashar Mehdad Sonal Gupta Wen-tau Yih 48 67 0 13 Oct 2021
SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval Thibault Formal Carlos Lassance Benjamin Piwowarski S. Clinchant 194 184 0 21 Sep 2021
Deep Bregman Divergence for Contrastive Learning of Visual Representations Mina Rezaei Farzin Soleymani B. Bischl Shekoofeh Azizi SSL 39 16 0 15 Sep 2021
Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval Luyu Gao Jamie Callan RALM 152 326 0 12 Aug 2021
BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models Nandan Thakur Nils Reimers Andreas Rucklé Abhishek Srivastava Iryna Gurevych VLM 229 961 0 17 Apr 2021
Overview of the TREC 2020 deep learning track Nick Craswell Bhaskar Mitra Emine Yilmaz Daniel Fernando Campos 54 362 0 15 Feb 2021
Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks Nandan Thakur Nils Reimers Johannes Daxenberger Iryna Gurevych 197 237 0 16 Oct 2020
RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering Yingqi Qu Yuchen Ding Jing Liu Kai Liu Ruiyang Ren Xin Zhao Daxiang Dong Hua-Hong Wu Haifeng Wang RALM OffRL 206 593 0 16 Oct 2020
Overview of the TREC 2019 deep learning track Nick Craswell Bhaskar Mitra Emine Yilmaz Daniel Fernando Campos E. Voorhees 174 453 0 17 Mar 2020