Improving Text Embeddings with Large Language Models

31 December 2023

Liang Wang

Papers citing "Improving Text Embeddings with Large Language Models"

50 / 108 papers shown

Title
Do We Need Domain-Specific Embedding Models? An Empirical Investigation Yixuan Tang Yi Yang AIFin 38 3 0 27 Sep 2024
Making Text Embedders Few-Shot Learners Chaofan Li Minghao Qin Shitao Xiao Jianlyu Chen Kun Luo Yingxia Shao Defu Lian Zheng Liu 30 22 0 24 Sep 2024
Lessons Learned on Information Retrieval in Electronic Health Records: A Comparison of Embedding Models and Pooling Strategies Skatje Myers Timothy A. Miller Yanjun Gao M. Churpek Anoop Mayampurath Dmitriy Dligach Majid Afshar 20 3 0 23 Sep 2024
jina-embeddings-v3: Multilingual Embeddings With Task LoRA Saba Sturua Isabelle Mohr Mohammad Kalim Akram Michael Gunther Bo Wang ... Feng Wang Georgios Mastrapas Andreas Koukounas Nan Wang Han Xiao RALM 37 24 0 16 Sep 2024
Interactive Machine Teaching by Labeling Rules and Instances Giannis Karamanolakis Daniel J. Hsu Luis Gravano 30 0 0 08 Sep 2024
Masked Mixers for Language Generation and Retrieval Benjamin L. Badger 37 0 0 02 Sep 2024
Conan-embedding: General Text Embedding with More and Better Negative Samples Shiyu Li Yang Tang Shizhe Chen Xi Chen 13 3 0 28 Aug 2024
Improving embedding with contrastive fine-tuning on small datasets with expert-augmented scores Jun Lu David Li Bill Ding Yu Kang 49 3 0 19 Aug 2024
Understanding Generative AI Content with Embedding Models Max Vargas Reilly Cannon A. Engel Anand D. Sarwate Tony Chiang 42 3 0 19 Aug 2024
Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge Ravi Raju Swayambhoo Jain Bo Li Jonathan Li Urmish Thakker ALM ELM 42 11 0 16 Aug 2024
RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation Dongyu Ru Lin Qiu Xiangkun Hu Tianhang Zhang Peng Shi ... Tong He Zhiguo Wang Pengfei Liu Yue Zhang Zheng Zhang 47 12 0 15 Aug 2024
Fine-Tuning Large Language Models for Stock Return Prediction Using Newsflow Tian Guo E. Hauptmann AIFin 36 3 0 25 Jul 2024
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities Peng-Tao Xu Wei Ping Xianchao Wu Zihan Liu M. Shoeybi Mohammad Shoeybi Bryan Catanzaro RALM 44 14 0 19 Jul 2024
E5-V: Universal Embeddings with Multimodal Large Language Models Ting Jiang Minghui Song Zihan Zhang Haizhen Huang Weiwei Deng Feng Sun Qi Zhang Deqing Wang Fuzhen Zhuang VLM 23 19 0 17 Jul 2024
Real-Time Anomaly Detection and Reactive Planning with Large Language Models Rohan Sinha Amine Elhafsi Christopher Agia Matthew Foutter Edward Schmerling Marco Pavone OffRL LRM 35 24 0 11 Jul 2024
LETS-C: Leveraging Language Embedding for Time Series Classification Rachneet Kaur Zhen Zeng T. Balch Manuela Veloso AI4TS 33 0 0 09 Jul 2024
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models Xiangyang Li Kuicai Dong Yi Quan Lee Wei Xia Yichun Yin Xinyi Dai Yasheng Wang Ruiming Tang 52 15 0 03 Jul 2024
RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs Yue Yu Wei Ping Zihan Liu Boxin Wang Jiaxuan You Chao Zhang M. Shoeybi Bryan Catanzaro ALM RALM 34 50 0 02 Jul 2024
ColPali: Efficient Document Retrieval with Vision Language Models Manuel Faysse Hugues Sibille Tony Wu Bilel Omrani Gautier Viaud C´eline Hudelot Pierre Colombo VLM 60 21 0 27 Jun 2024
From Distributional to Overton Pluralism: Investigating Large Language Model Alignment Thom Lake Eunsol Choi Greg Durrett 37 9 0 25 Jun 2024
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs Ziyan Jiang Xueguang Ma Wenhu Chen RALM 46 47 0 21 Jun 2024
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images Rushikesh Zawar Shaurya Dewan Andrew F. Luo Margaret M. Henderson Michael J. Tarr Leila Wehbe VGen CoGe 36 1 0 19 Jun 2024
Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation Kaikai An Fangkai Yang Liqun Li Junting Lu Sitao Cheng ... Lele Cao Qingwei Lin Saravan Rajmohan Dongmei Zhang Qi Zhang RALM 33 1 0 19 Jun 2024
SUGARCREPE++ Dataset: Vision-Language Model Sensitivity to Semantic and Lexical Alterations Sri Harsha Dumpala Aman Jaiswal Chandramouli Shama Sastry E. Milios Sageev Oore Hassan Sajjad CoGe 30 9 0 17 Jun 2024
Ad Auctions for LLMs via Retrieval Augmented Generation Mohammadtaghi Hajiaghayi Sébastien Lahaie Keivan Rezaei Suho Shin 33 6 0 12 Jun 2024
Repurposing Language Models into Embedding Models: Finding the Compute-Optimal Recipe Alicja Ziarko Albert Q. Jiang Bartosz Piotrowski Wenda Li M. Jamnik Piotr Miłoś 26 0 0 06 Jun 2024
UltraMedical: Building Specialized Generalists in Biomedicine Kaiyan Zhang Sihang Zeng Ermo Hua Ning Ding Zhang-Ren Chen ... Xuekai Zhu Xingtai Lv Hu Jinfang Zhiyuan Liu Bowen Zhou LM&MA 39 20 0 06 Jun 2024
Towards Ontology-Enhanced Representation Learning for Large Language Models Francesco Ronzano Jay Nanavati 21 4 0 30 May 2024
Recent advances in text embedding: A Comprehensive Review of Top-Performing Methods on the MTEB Benchmark Hongliu Cao AI4TS 27 11 0 27 May 2024
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models Chankyu Lee Rajarshi Roy Mengyao Xu Jonathan Raiman M. Shoeybi Bryan Catanzaro Wei Ping RALM 52 137 0 27 May 2024
Crafting Interpretable Embeddings by Asking LLMs Questions Vinamra Benara Chandan Singh John X. Morris Richard Antonello Ion Stoica Alexander G. Huth Jianfeng Gao 19 5 0 26 May 2024
Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training Junqin Huang Zhongjie Hu Zihao Jing Mengya Gao Yichao Wu MoE VLM 27 4 0 11 May 2024
LMD3: Language Model Data Density Dependence John Kirchenbauer Garrett Honke Gowthami Somepalli Jonas Geiping Daphne Ippolito Katherine Lee Tom Goldstein David Andre 35 6 0 10 May 2024
VISLA Benchmark: Evaluating Embedding Sensitivity to Semantic and Lexical Alterations Sri Harsha Dumpala Aman Jaiswal Chandramouli Shama Sastry E. Milios Sageev Oore Hassan Sajjad VLM CoGe 35 0 0 25 Apr 2024
Enhancing Embedding Performance through Large Language Model-based Text Enrichment and Rewriting Nicholas Harris Anand Butani Syed Hashmy 12 5 0 18 Apr 2024
LongEmbed: Extending Embedding Models for Long Context Retrieval Dawei Zhu Liang Wang Nan Yang Yifan Song Wenhao Wu Furu Wei Sujian Li RALM 40 21 0 18 Apr 2024
RAR-b: Reasoning as Retrieval Benchmark Chenghao Xiao G. Thomas Al Moubayed LRM RALM 29 8 0 09 Apr 2024
LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders Parishad BehnamGhader Vaibhav Adlakha Marius Mosbach Dzmitry Bahdanau Nicolas Chapados Siva Reddy 43 173 0 09 Apr 2024
Extract, Define, Canonicalize: An LLM-based Framework for Knowledge Graph Construction Bowen Zhang Harold Soh 32 16 0 05 Apr 2024
CONFLARE: CONFormal LArge language model REtrieval Pouria Rouzrokh S. Faghani Cooper Gamble Moein Shariatnia Bradley J. Erickson 3DV RALM 42 2 0 04 Apr 2024
Gecko: Versatile Text Embeddings Distilled from Large Language Models Jinhyuk Lee Zhuyun Dai Xiaoqi Ren Blair Chen Daniel Matthew Cer ... Aditya Kusupati Prateek Jain Siddhartha Reddy Jonnalagadda Ming-Wei Chang Iftekhar Naim RALM VLM SyDa 33 40 0 29 Mar 2024
FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions Orion Weller Benjamin Chang Sean MacAvaney Kyle Lo Arman Cohan Benjamin Van Durme Dawn J Lawrie Luca Soldaini 63 27 0 22 Mar 2024
A Semantic Search Engine for Mathlib4 Guoxiong Gao Haocheng Ju Jiedong Jiang Zihan Qin Bin Dong 33 3 0 20 Mar 2024
Towards Open-ended Visual Quality Comparison Haoning Wu Hanwei Zhu Zicheng Zhang Erli Zhang Chaofeng Chen ... Qiong Yan Xiaohong Liu Guangtao Zhai Shiqi Wang Weisi Lin AAML 54 49 0 26 Feb 2024
SInViG: A Self-Evolving Interactive Visual Agent for Human-Robot Interaction Jie Xu Hanbo Zhang Xinghang Li Huaping Liu Xuguang Lan Tao Kong LM&Ro 25 3 0 19 Feb 2024
Pixel Sentence Representation Learning Chenghao Xiao Zhuoxu Huang Danlu Chen G. Hudson Yizhi Li Haoran Duan Chenghua Lin Jie Fu Jungong Han Noura Al Moubayed SSL 4 2 0 13 Feb 2024
Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT Jon Saad-Falcon Daniel Y. Fu Simran Arora Neel Guha Christopher Ré RALM 24 15 0 12 Feb 2024
CultureLLM: Incorporating Cultural Differences into Large Language Models Cheng-rong Li Mengzhou Chen Jindong Wang Sunayana Sitaram Xing Xie VLM 49 17 0 09 Feb 2024
InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory Chaojun Xiao Pengle Zhang Xu Han Guangxuan Xiao Yankai Lin Zhengyan Zhang Zhiyuan Liu Maosong Sun LLMAG 39 33 0 07 Feb 2024
Intent-based Prompt Calibration: Enhancing prompt optimization with synthetic boundary cases Elad Levi Eli Brosh Matan Friedmann 22 7 0 05 Feb 2024