Title
Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs? Hansi Zeng Kai Hui Honglei Zhuang Zhen Qin Zhenrui Yue Hamed Zamani Dana Alon 33 0 0 16 Apr 2025
Advancing Semantic Caching for LLMs with Domain-Specific Embeddings and Synthetic Data Waris Gill Justin Cechmanek Tyler Hutcherson Srijith Rajamohan Jen Agarwal Muhammad Ali Gulzar Manvinder Singh Benoit Dion 33 0 0 03 Apr 2025
Enhancing Negation Awareness in Universal Text Embeddings: A Data-efficient and Computational-efficient Approach Hongliu Cao 58 0 0 01 Apr 2025
Writing as a testbed for open ended agents Sian Gooding Lucia Lopez-Rivilla Edward Grefenstette LLMAG 78 1 0 25 Mar 2025
Don't lie to your friends: Learning what you know from collaborative self-play Jacob Eisenstein Reza Aghajani Adam Fisch Dheeru Dua Fantine Huot Mirella Lapata Vicky Zayats Jonathan Berant 68 0 0 18 Mar 2025
Broaden your SCOPE! Efficient Multi-turn Conversation Planning for LLMs using Semantic Space Zhiliang Chen Xinyuan Niu Chuan-Sheng Foo Bryan Kian Hsiang Low 47 1 0 14 Mar 2025
Beyond Matryoshka: Revisiting Sparse Coding for Adaptive Representation Tiansheng Wen Yifei Wang Zequn Zeng Zhong Peng Yudi Su Xinyang Liu Bo Chen Hongwei Liu Stefanie Jegelka Chenyu You CLL 56 2 0 03 Mar 2025
Rank1: Test-Time Compute for Reranking in Information Retrieval Orion Weller Kathryn Ricci Eugene Yang Andrew Yates Dawn J Lawrie Benjamin Van Durme ReLM AI4TS LRM 126 4 0 25 Feb 2025
DRAMA: Diverse Augmentation from Large Language Models to Smaller Dense Retrievers Xueguang Ma Xi Victoria Lin Barlas Oğuz Jimmy Lin Wen-tau Yih Xilun Chen RALM 80 3 0 25 Feb 2025
Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search Yifan Ji Zhipeng Xu Zhenghao Liu Yukun Yan S. Yu Y. Li Zhiyuan Liu Yu Gu Ge Yu Maosong Sun RALM 56 0 0 18 Feb 2025
LLMs are Also Effective Embedding Models: An In-depth Overview Chongyang Tao Tao Shen Shen Gao Junshuo Zhang Zhen Li Zhengwei Tao Shuai Ma 68 7 0 17 Dec 2024
Time-Reversal Provides Unsupervised Feedback to LLMs Yerram Varun Rahul Madhavan Sravanti Addepalli A. Suggala Karthikeyan Shanmugam Prateek Jain LRM SyDa 64 0 0 03 Dec 2024
Enhancing Table Representations with LLM-powered Synthetic Data Generation Dayu Yang Natawut Monaikul Amanda Ding Bozhao Tan Kishore Mosaliganti Giri Iyengar 26 0 0 04 Nov 2024
RARe: Retrieval Augmented Retrieval with In-Context Examples Atula Tejaswi Yoonsang Lee Sujay Sanghavi Eunsol Choi RALM LRM 25 1 0 26 Oct 2024
Scalable Influence and Fact Tracing for Large Language Model Pretraining Tyler A. Chang Dheeraj Rajagopal Tolga Bolukbasi Lucas Dixon Ian Tenney TDI 28 0 0 22 Oct 2024
Accelerating Inference of Networks in the Frequency Domain Chenqiu Zhao Guanfang Dong Anup Basu 33 10 0 06 Oct 2024
Making Text Embedders Few-Shot Learners Chaofan Li Minghao Qin Shitao Xiao Jianlyu Chen Kun Luo Yingxia Shao Defu Lian Zheng Liu 15 22 0 24 Sep 2024
Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking Stav Cohen Ron Bitton Ben Nassi 34 4 0 12 Sep 2024
Understanding Generative AI Content with Embedding Models Max Vargas Reilly Cannon A. Engel Anand D. Sarwate Tony Chiang 42 3 0 19 Aug 2024
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? Jinhyuk Lee Anthony Chen Zhuyun Dai Dheeru Dua Devendra Singh Sachan ... Jeremy R. Cole Sebastian Riedel Iftekhar Naim Ming-Wei Chang Kelvin Guu RALM LRM 43 30 0 19 Jun 2024
Block Transformer: Global-to-Local Language Modeling for Fast Inference Namgyu Ho Sangmin Bae Taehyeon Kim Hyunjik Jo Yireun Kim Tal Schuster Adam Fisch James Thorne Se-Young Yun 45 6 0 04 Jun 2024
Recent advances in text embedding: A Comprehensive Review of Top-Performing Methods on the MTEB Benchmark Hongliu Cao AI4TS 27 11 0 27 May 2024
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models Chankyu Lee Rajarshi Roy Mengyao Xu Jonathan Raiman M. Shoeybi Bryan Catanzaro Wei Ping RALM 38 137 0 27 May 2024
Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training Junqin Huang Zhongjie Hu Zihao Jing Mengya Gao Yichao Wu MoE VLM 27 4 0 11 May 2024
FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions Orion Weller Benjamin Chang Sean MacAvaney Kyle Lo Arman Cohan Benjamin Van Durme Dawn J Lawrie Luca Soldaini 48 27 0 22 Mar 2024
Repetition Improves Language Model Embeddings Jacob Mitchell Springer Suhas Kotha Daniel Fried Graham Neubig Aditi Raghunathan 40 28 0 23 Feb 2024
Large Language Models for Information Retrieval: A Survey Yutao Zhu Huaying Yuan Shuting Wang Jiongnan Liu Wenhan Liu Chenlong Deng Haonan Chen Zhicheng Dou Ji-Rong Wen KELM 44 281 0 14 Aug 2023
Text and Code Embeddings by Contrastive Pre-Training Arvind Neelakantan Tao Xu Raul Puri Alec Radford Jesse Michael Han ... Tabarak Khan Toki Sherbakov Joanne Jang Peter Welinder Lilian Weng SSL AI4TS 204 412 0 24 Jan 2022
RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking Ruiyang Ren Yingqi Qu Jing Liu Wayne Xin Zhao Qiaoqiao She Hua-Hong Wu Haifeng Wang Ji-Rong Wen 124 244 0 14 Oct 2021
BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models Nandan Thakur Nils Reimers Andreas Rucklé Abhishek Srivastava Iryna Gurevych VLM 229 961 0 17 Apr 2021
Distilling Knowledge from Reader to Retriever for Question Answering Gautier Izacard Edouard Grave RALM 173 249 0 08 Dec 2020
RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering Yingqi Qu Yuchen Ding Jing Liu Kai Liu Ruiyang Ren Xin Zhao Daxiang Dong Hua-Hong Wu Haifeng Wang RALM OffRL 206 593 0 16 Oct 2020