NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models

27 May 2024

Mengyao Xu

Papers citing "NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models"

50 / 104 papers shown

Title
Circuit Representation Learning with Masked Gate Modeling and Verilog-AIG Alignment Haoyuan Wu Haisheng Zheng Yuan Pu Bei Yu 42 1 0 18 Feb 2025
Following the Autoregressive Nature of LLM Embeddings via Compression and Alignment Jingcheng Deng Zhongtao Jiang Liang Pang Liwei Chen Kun Xu Zihao Wei Huawei Shen Xueqi Cheng 49 1 0 17 Feb 2025
Uncertainty-Aware Step-wise Verification with Generative Reward Models Zihuiwen Ye L. Melo Younesse Kaddar Phil Blunsom S. Kamath S Yarin Gal LRM 44 0 0 16 Feb 2025
FinMTEB: Finance Massive Text Embedding Benchmark Yixuan Tang Yi Yang AIFin 63 0 0 16 Feb 2025
When Dimensionality Hurts: The Role of LLM Embedding Compression for Noisy Regression Tasks Felix Drinkall J. Pierrehumbert Stefan Zohren 58 0 0 04 Feb 2025
Al-Khwarizmi: Discovering Physical Laws with Foundation Models Christopher E. Mower Haitham Bou-Ammar AI4CE 74 1 0 03 Feb 2025
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks Ziyan Jiang Rui Meng Xinyi Yang Semih Yavuz Yingbo Zhou Wenhu Chen MLLM VLM 51 18 0 03 Jan 2025
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models Hieu Man Nghia Trung Ngo Viet Dac Lai Ryan Rossi Franck Dernoncourt T. Nguyen 91 0 0 01 Jan 2025
Zero-Indexing Internet Search Augmented Generation for Large Language Models Guangxin He Zonghong Dai Jiangcheng Zhu Binqiang Zhao Qicheng Hu Chenyue Li You Peng Chen Wang Binhang Yuan 62 0 0 31 Dec 2024
Boosting LLM via Learning from Data Iteratively and Selectively Qi Jia Siyu Ren Ziheng Qin Fuzhao Xue Jinjie Ni Yang You 21 0 0 23 Dec 2024
Cannot or Should Not? Automatic Analysis of Refusal Composition in IFT/RLHF Datasets and Refusal Behavior of Black-Box LLMs Alexander von Recum Christoph Schnabl Gabor Hollbeck Silas Alberti Philip Blinde Marvin von Hagen 90 2 0 22 Dec 2024
GME: Improving Universal Multimodal Retrieval by Multimodal LLMs Xin Zhang Yanzhao Zhang Wen Xie Mingxin Li Ziqi Dai Dingkun Long Pengjun Xie Meishan Zhang Wenjie Li M. Zhang 114 7 0 22 Dec 2024
LLMs are Also Effective Embedding Models: An In-depth Overview Chongyang Tao Tao Shen Shen Gao Junshuo Zhang Zhen Li Zhengwei Tao Shuai Ma 68 7 0 17 Dec 2024
Token Prepending: A Training-Free Approach for Eliciting Better Sentence Embeddings from LLMs Yuchen Fu Zifeng Cheng Zhiwei Jiang Zhonghui Wang Yafeng Yin Zhengliang Li Qing Gu LLMAG 72 0 0 16 Dec 2024
Adaptive Two-Phase Finetuning LLMs for Japanese Legal Text Retrieval Quang Hoang Trung Nguyen Van Hoang Phuc Le Trung Hoang Quang Huu Hieu Vo Nguyen Le Duy AILaw RALM 66 0 0 03 Dec 2024
Improved Large Language Model Jailbreak Detection via Pretrained Embeddings Erick Galinkin Martin Sablotny 68 0 0 02 Dec 2024
Advanced System Integration: Analyzing OpenAPI Chunking for Retrieval-Augmented Generation Robin D. Pesl Jerin G. Mathew Massimo Mecella Marco Aiello 73 1 0 29 Nov 2024
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval Y. Liu Rui Meng Shafiq R. Joty Silvio Savarese Caiming Xiong Yingbo Zhou Semih Yavuz 90 3 0 19 Nov 2024
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs Sheng-Chieh Lin Chankyu Lee M. Shoeybi Jimmy J. Lin Bryan Catanzaro Wei Ping 62 10 0 04 Nov 2024
RARe: Retrieval Augmented Retrieval with In-Context Examples Atula Tejaswi Yoonsang Lee Sujay Sanghavi Eunsol Choi RALM LRM 25 1 0 26 Oct 2024
Large Language Models Are Overparameterized Text Encoders Thennal D K Tim Fischer Chris Biemann 38 2 0 18 Oct 2024
Understanding the Role of LLMs in Multimodal Evaluation Benchmarks Botian Jiang Lei Li Xiaonan Li Zhaowei Li Xiachong Feng Lingpeng Kong Q. Liu Xipeng Qiu 41 2 0 16 Oct 2024
On Debiasing Text Embeddings Through Context Injection Thomas Uriot 27 0 0 14 Oct 2024
Advancing Academic Knowledge Retrieval via LLM-enhanced Representation Similarity Fusion Wei Dai Peng Fu Chunjing Gan 25 0 0 14 Oct 2024
Diagnosing Hate Speech Classification: Where Do Humans and Machines Disagree, and Why? Xilin Yang 14 1 0 14 Oct 2024
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents S. Yu C. Tang Bokai Xu Junbo Cui Junhao Ran ... Zhenghao Liu Shuo Wang Xu Han Zhiyuan Liu Maosong Sun VLM 37 22 0 14 Oct 2024
LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory Di Wu Hongwei Wang W. Yu Yuwei Zhang Kai-Wei Chang Dong Yu RALM KELM 44 5 0 14 Oct 2024
Detecting Training Data of Large Language Models via Expectation Maximization Gyuwan Kim Yang Li Evangelia Spiliopoulou Jie Ma Miguel Ballesteros William Yang Wang MIALM 90 3 2 10 Oct 2024
Exploring the Meaningfulness of Nearest Neighbor Search in High-Dimensional Space Zhonghan Chen Ruiyuan Zhang Xi Zhao Xiaojun Cheng Xiaofang Zhou 44 0 0 08 Oct 2024
Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions Qian Ruan Ilia Kuznetsov Iryna Gurevych 20 2 0 02 Oct 2024
Open-World Evaluation for Retrieving Diverse Perspectives Hung-Ting Chen Eunsol Choi 30 0 0 26 Sep 2024
Making Text Embedders Few-Shot Learners Chaofan Li Minghao Qin Shitao Xiao Jianlyu Chen Kun Luo Yingxia Shao Defu Lian Zheng Liu 19 22 0 24 Sep 2024
jina-embeddings-v3: Multilingual Embeddings With Task LoRA Saba Sturua Isabelle Mohr Mohammad Kalim Akram Michael Gunther Bo Wang ... Feng Wang Georgios Mastrapas Andreas Koukounas Nan Wang Han Xiao RALM 37 23 0 16 Sep 2024
Ruri: Japanese General Text Embeddings Hayato Tsukagoshi Ryohei Sasano 19 0 0 12 Sep 2024
Pooling And Attention: What Are Effective Designs For LLM-Based Embedding Models? Yixuan Tang Yi Yang 28 3 0 04 Sep 2024
Evaluating Computational Representations of Character: An Austen Character Similarity Benchmark Funing Yang Carolyn Jane Anderson 27 0 0 28 Aug 2024
ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning Hieu Man Nghia Trung Ngo Franck Dernoncourt Thien Huu Nguyen AI4TS 40 4 0 06 Aug 2024
Language-Conditioned Offline RL for Multi-Robot Navigation Steven D. Morad Ajay Shankar J. Blumenkamp Amanda Prorok LM&Ro OffRL 36 6 0 29 Jul 2024
mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval Xin Zhang Yanzhao Zhang Dingkun Long Wen Xie Ziqi Dai ... Pengjun Xie Fei Huang Meishan Zhang Wenjie Li Min Zhang 30 73 0 29 Jul 2024
Fine-Tuning Large Language Models for Stock Return Prediction Using Newsflow Tian Guo E. Hauptmann AIFin 31 2 0 25 Jul 2024
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities Peng-Tao Xu Wei Ping Xianchao Wu Zihan Liu M. Shoeybi Mohammad Shoeybi Bryan Catanzaro RALM 44 14 0 19 Jul 2024
Human-like Episodic Memory for Infinite Context LLMs Z. Fountas Martin A Benfeghoul Adnan Oomerjee Fenia Christopoulou Gerasimos Lampouras Haitham Bou-Ammar Jun Wang 29 18 0 12 Jul 2024
LitSearch: A Retrieval Benchmark for Scientific Literature Search Anirudh Ajith Mengzhou Xia Alexis Chevalier Tanya Goyal Danqi Chen Tianyu Gao RALM 33 9 0 10 Jul 2024
RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs Yue Yu Wei Ping Zihan Liu Boxin Wang Jiaxuan You Chao Zhang M. Shoeybi Bryan Catanzaro ALM RALM 34 50 0 02 Jul 2024
CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks Maciej Besta Lorenzo Paleari Aleš Kubíček Piotr Nyczyk Robert Gerstenberger Patrick Iff Tomasz Lehmann H. Niewiadomski Torsten Hoefler 54 5 0 04 Jun 2024
MTEB-French: Resources for French Sentence Embedding Evaluation and Analysis Mathieu Ciancone Imene Kerboua Marion Schaeffer W. Siblini 35 2 0 30 May 2024
ATM: Adversarial Tuning Multi-agent System Makes a Robust Retrieval-Augmented Generator Junda Zhu Lingyong Yan Haibo Shi Dawei Yin Lei Sha RALM 26 5 0 28 May 2024
BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers Ran Xu Wenqi Shi Yue Yu Yuchen Zhuang Yanqiao Zhu M. D. Wang Joyce C. Ho Chao Zhang Carl Yang LM&MA 40 19 0 29 Apr 2024
Looking Right is Sometimes Right: Investigating the Capabilities of Decoder-only LLMs for Sequence Labeling David Dukić Jan Šnajder 24 12 0 25 Jan 2024
Large Language Models for Information Retrieval: A Survey Yutao Zhu Huaying Yuan Shuting Wang Jiongnan Liu Wenhan Liu Chenlong Deng Haonan Chen Zhicheng Dou Ji-Rong Wen KELM 44 281 0 14 Aug 2023