Text Embeddings by Weakly-Supervised Contrastive Pre-training

7 December 2022

Liang Wang

Papers citing "Text Embeddings by Weakly-Supervised Contrastive Pre-training"

50 / 81 papers shown

Title
A Reasoning-Focused Legal Retrieval Benchmark Lucia Zheng Neel Guha Javokhir Arifov Sarah Zhang Michal Skreta Christopher D. Manning Peter Henderson Daniel E. Ho AILaw RALM ELM 87 2 0 06 May 2025
SymbioticRAG: Enhancing Document Intelligence Through Human-LLM Symbiotic Collaboration Qiang Sun Tingting Bi Sirui Li E. Holden Paul Duuring Kai Niu Wei Liu 22 0 0 05 May 2025
MemEngine: A Unified and Modular Library for Developing Advanced Memory of LLM-based Agents Z. Zhang Quanyu Dai Xu Chen Rui Li Z. Li Zhenhua Dong LLMAG 29 0 0 04 May 2025
MateICL: Mitigating Attention Dispersion in Large-Scale In-Context Learning Murtadha Ahmed Wenbo Liu yunfeng 39 0 0 02 May 2025
LLM-Evaluation Tropes: Perspectives on the Validity of LLM-Evaluations Laura Dietz Oleg Zendel P. Bailey Charles L. A. Clarke Ellese Cotterill Jeff Dalton Faegheh Hasibi Mark Sanderson Nick Craswell ELM 43 0 0 27 Apr 2025
EvidenceBench: A Benchmark for Extracting Evidence from Biomedical Papers J. Wang Weili Cao Kaicheng Wang Xiaoyue Wang Ashish Dalvi ... David E. Neal Maxim Khan Christopher D. Rosin R. Paturi Leon Bergen 21 0 0 25 Apr 2025
DualRAG: A Dual-Process Approach to Integrate Reasoning and Retrieval for Multi-Hop Question Answering Rong Cheng J. Liu Yan Zheng Fei Ni Jiazhen Du Hangyu Mao Fuzheng Zhang Bo-Lan Wang Jianye Hao LRM 51 0 0 25 Apr 2025
Unsupervised Corpus Poisoning Attacks in Continuous Space for Dense Retrieval Yongkang Li Panagiotis Eustratiadis Simon Lupart Evangelos Kanoulas AAML 43 0 0 24 Apr 2025
Cost-Effective Text Clustering with Large Language Models Hongtao Wang Taiyan Zhang Renchi Yang Jianliang Xu 24 0 0 22 Apr 2025
Don't Retrieve, Generate: Prompting LLMs for Synthetic Training Data in Dense Retrieval Aarush Sinha RALM 73 0 0 20 Apr 2025
Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling Hengran Zhang Keping Bi J. Guo Xiaojie Sun Shihao Liu Daiting Shi Dawei Yin Xueqi Cheng RALM 60 0 0 07 Apr 2025
Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking Chris Samarinas Hamed Zamani ALM LRM 66 0 0 04 Apr 2025
ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning M. Ben-Chen Tianpeng Li Haoze Sun Yijie Zhou Chenzheng Zhu ... Weipeng Chen Haofen Wang Jeff Z. Pan Wen Zhang H. Chen ReLM OffRL AI4TS LRM 62 6 0 25 Mar 2025
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning Bowen Jin Hansi Zeng Zhenrui Yue Dong Wang Sercan Ö. Arik Dong Wang Hamed Zamani J. Han RALM ReLM KELM OffRL AI4TS LRM 80 21 0 12 Mar 2025
LocAgent: Graph-Guided LLM Agents for Code Localization Zhaoling Chen Xiangru Tang Gangda Deng Fang Wu Jialong Wu Zhiwei Jiang Viktor Prasanna Arman Cohan Xingyao Wang LLMAG 91 3 0 12 Mar 2025
EuroBERT: Scaling Multilingual Encoders for European Languages Nicolas Boizard Hippolyte Gisserot-Boukhlef Duarte M. Alves André F. T. Martins Ayoub Hammal ... Maxime Peyrard Nuno M. Guerreiro Patrick Fernandes Ricardo Rei Pierre Colombo 61 1 0 07 Mar 2025
SePer: Measure Retrieval Utility Through The Lens Of Semantic Perplexity Reduction Lu Dai Yijie Xu Jinhui Ye Hao Liu Hui Xiong 3DV RALM 74 2 0 03 Mar 2025
Exploring Graph Tasks with Pure LLMs: A Comprehensive Benchmark and Investigation Y. Wang Xinnan Dai Wenqi Fan Yao Ma 67 1 0 26 Feb 2025
FiDeLiS: Faithful Reasoning in Large Language Model for Knowledge Graph Question Answering Yuan Sui Yufei He Nian Liu Xiaoxin He Kun Wang Bryan Hooi LRM 47 10 0 20 Feb 2025
Any Information Is Just Worth One Single Screenshot: Unifying Search With Visualized Information Retrieval Ze Liu Zhengyang Liang Junjie Zhou Zheng Liu Defu Lian OffRL 58 0 0 17 Feb 2025
Following the Autoregressive Nature of LLM Embeddings via Compression and Alignment Jingcheng Deng Zhongtao Jiang Liang Pang Liwei Chen Kun Xu Zihao Wei Huawei Shen Xueqi Cheng 49 1 0 17 Feb 2025
Chain-of-Retrieval Augmented Generation Liang Wang Haonan Chen Nan Yang Xiaolong Huang Zhicheng Dou Furu Wei RALM LRM ReLM 3DV 81 6 0 24 Jan 2025
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks Ziyan Jiang Rui Meng Xinyi Yang Semih Yavuz Yingbo Zhou Wenhu Chen MLLM VLM 51 18 0 03 Jan 2025
Text Clustering as Classification with LLMs Chen Huang Guoxiu He 36 2 0 03 Jan 2025
ValuesRAG: Enhancing Cultural Alignment Through Retrieval-Augmented Contextual Learning Wonduk Seo Zonghao Yuan Yi Bu VLM 48 0 0 02 Jan 2025
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models Hieu Man Nghia Trung Ngo Viet Dac Lai Ryan Rossi Franck Dernoncourt T. Nguyen 70 0 0 01 Jan 2025
GME: Improving Universal Multimodal Retrieval by Multimodal LLMs Xin Zhang Yanzhao Zhang Wen Xie Mingxin Li Ziqi Dai Dingkun Long Pengjun Xie Meishan Zhang Wenjie Li M. Zhang 114 7 0 22 Dec 2024
ChemTEB: Chemical Text Embedding Benchmark, an Overview of Embedding Models Performance & Efficiency on a Specific Domain Ali Shiraee Kasmaee Mohammad Khodadad Mohammad Arshi Saloot Nick Sherck Stephen Dokas H. Mahyar Soheila Samiee ELM 97 0 0 30 Nov 2024
GraphCLIP: Enhancing Transferability in Graph Foundation Models for Text-Attributed Graphs Yun Zhu Haizhou Shi Xiaotang Wang Yongchao Liu Yaoke Wang Boci Peng Chuntao Hong Siliang Tang VLM 43 6 0 14 Oct 2024
AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs Xiaogeng Liu Peiran Li Edward Suh Yevgeniy Vorobeychik Zhuoqing Mao Somesh Jha Patrick McDaniel Huan Sun Bo Li Chaowei Xiao 30 17 0 03 Oct 2024
Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling David Grangier Simin Fan Skyler Seto Pierre Ablin 34 3 0 30 Sep 2024
RUIE: Retrieval-based Unified Information Extraction using Large Language Model Xincheng Liao Junwen Duan Yixi Huang Jianxin Wang 33 1 0 18 Sep 2024
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review Neha Prakriya Jui-Nan Yen Cho-Jui Hsieh Jason Cong KELM AI4CE LRM 26 1 0 10 Sep 2024
The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design Artem Snegirev Maria Tikhonova Anna Maksimova Alena Fenogenova Alexander Abramov 19 4 0 22 Aug 2024
Understanding Generative AI Content with Embedding Models Max Vargas Reilly Cannon A. Engel Anand D. Sarwate Tony Chiang 42 3 0 19 Aug 2024
Threshold Filtering Packing for Supervised Fine-Tuning: Training Related Samples within Packs Jiancheng Dong Lei Jiang Wei Jin Lu Cheng 36 1 0 18 Aug 2024
RICA2: Rubric-Informed, Calibrated Assessment of Actions Abrar Majeedi Viswanatha Reddy Gajjala Satya Sai Srinath Namburi Gnvv Yin Li CML 26 2 0 04 Aug 2024
ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction on an Academic Budget Adam Gould Pere-Lluis Huguet-Cabot S. Dadhania Francesca Toni 57 7 0 31 Jul 2024
NV-Retriever: Improving text embedding models with effective hard-negative mining G. D. S. P. Moreira Radek Osmulski Mengyao Xu Ronay Ak Benedikt D. Schifferer Even Oldridge RALM 41 30 0 22 Jul 2024
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities Peng-Tao Xu Wei Ping Xianchao Wu Zihan Liu M. Shoeybi Mohammad Shoeybi Bryan Catanzaro RALM 44 14 0 19 Jul 2024
Retrieve, Summarize, Plan: Advancing Multi-hop Question Answering with an Iterative Approach Zhouyu Jiang Mengshu Sun Lei Liang Zhiqiang Zhang RALM 60 10 0 18 Jul 2024
VRSD: Rethinking Similarity and Diversity for Retrieval in Large Language Models Hang Gao Yongfeng Zhang 41 2 0 05 Jul 2024
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models Xiangyang Li Kuicai Dong Yi Quan Lee Wei Xia Yichun Yin Xinyi Dai Yasheng Wang Ruiming Tang 52 15 0 03 Jul 2024
Preserving Multilingual Quality While Tuning Query Encoder on English Only Oleg V. Vasilyev Randy Sawaya John Bohannon 31 1 0 01 Jul 2024
ColPali: Efficient Document Retrieval with Vision Language Models Manuel Faysse Hugues Sibille Tony Wu Bilel Omrani Gautier Viaud C´eline Hudelot Pierre Colombo VLM 57 21 0 27 Jun 2024
MATE: Meet At The Embedding -- Connecting Images with Long Texts Young Kyun Jang Junmo Kang Yong Jae Lee Donghyun Kim VLM 31 5 0 26 Jun 2024
An Investigation of Prompt Variations for Zero-shot LLM-based Rankers Shuoqi Sun Shengyao Zhuang Shuai Wang Guido Zuccon 40 5 0 20 Jun 2024
Chain of Agents: Large Language Models Collaborating on Long-Context Tasks Yusen Zhang Ruoxi Sun Yanfei Chen Tomas Pfister Rui Zhang Sercan Ö. Arik RALM AI4CE LLMAG 42 28 0 04 Jun 2024
The Scandinavian Embedding Benchmarks: Comprehensive Assessment of Multilingual and Monolingual Text Embedding K. Enevoldsen Márton Kardos Niklas Muennighoff Kristoffer Laigaard Nielbo 24 9 0 04 Jun 2024
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models Yutao Zhu Zhaoheng Huang Zhicheng Dou Ji-Rong Wen RALM 48 5 0 30 May 2024