Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models

20 July 2023

Bo Wang

Papers citing "Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models"

21 / 21 papers shown

Title
SweRank: Software Issue Localization with Code Ranking R. Reddy Tarun Suresh JaeHyeok Doo Y. Liu Xuan-Phi Nguyen Yingbo Zhou Semih Yavuz Caiming Xiong Heng Ji Shafiq R. Joty 14 0 0 07 May 2025
LocAgent: Graph-Guided LLM Agents for Code Localization Zhaoling Chen Xiangru Tang Gangda Deng Fang Wu Jialong Wu Zhiwei Jiang Viktor Prasanna Arman Cohan Xingyao Wang LLMAG 89 2 0 12 Mar 2025
CUPCase: Clinically Uncommon Patient Cases and Diagnoses Dataset Oriel Perets Ofir Ben Shoham Nir Grinberg Nadav Rappoport ELM 34 0 0 08 Mar 2025
GEAR: A Simple GENERATE, EMBED, AVERAGE AND RANK Approach for Unsupervised Reverse Dictionary F. Almeman Luis Espinosa-Anke 65 0 0 09 Dec 2024
CoRNStack: High-Quality Contrastive Data for Better Code Retrieval and Reranking Tarun Suresh R. Reddy Yifei Xu Zach Nussbaum Andriy Mulyar Brandon Duderstadt Heng Ji 83 1 0 01 Dec 2024
CoFE-RAG: A Comprehensive Full-chain Evaluation Framework for Retrieval-Augmented Generation with Enhanced Data Diversity Jintao Liu Ruixue Ding Linhao Zhang Pengjun Xie Fie Huang 18 3 0 16 Oct 2024
Tübingen-CL at SemEval-2024 Task 1:Ensemble Learning for Semantic Relatedness Estimation Leixin Zhang Çağrı Çöltekin 34 2 0 14 Oct 2024
Do You Know What You Are Talking About? Characterizing Query-Knowledge Relevance For Reliable Retrieval Augmented Generation Zhuohang Li Jiaxin Zhang Chao Yan Kamalika Das Sricharan Kumar Murat Kantarcioglu Bradley Malin RALM 21 1 0 10 Oct 2024
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions Yu-Guan Hsieh Cheng-Yu Hsieh Shih-Ying Yeh Louis Béthune Hadi Pour Ansari Pavan Kumar Anasosalu Vasu Chun-Liang Li Ranjay Krishna Oncel Tuzel Marco Cuturi 58 4 0 09 Jul 2024
How Similar Are Elected Politicians and Their Constituents? Quantitative Evidence From Online Social Networks Waleed Iqbal Gareth Tyson Ignacio Castro 39 0 0 03 Jul 2024
CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation Abe Bohan Hou Orion Weller Guanghui Qin Eugene Yang Dawn J Lawrie Nils Holzenberger Andrew Blair-Stanek Benjamin Van Durme AILaw ELM 50 5 0 24 Jun 2024
Repurposing Language Models into Embedding Models: Finding the Compute-Optimal Recipe Alicja Ziarko Albert Q. Jiang Bartosz Piotrowski Wenda Li M. Jamnik Piotr Miłoś 16 0 0 06 Jun 2024
Jina CLIP: Your CLIP Model Is Also Your Text Retriever Andreas Koukounas Georgios Mastrapas Michael Gunther Bo Wang Scott Martens ... Saahil Ognawala Susana Guzman Maximilian Werk Nan Wang Han Xiao VLM 17 13 0 30 May 2024
Balancing Exploration and Exploitation in LLM using Soft RLLF for Enhanced Negation Understanding Ha-Thanh Nguyen Ken Satoh 33 2 0 02 Mar 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings Isabelle Mohr Markus Krimmel Saba Sturua Mohammad Kalim Akram Andreas Koukounas ... Susana Guzman Bo Wang Maximilian Werk Nan Wang Han Xiao 30 14 0 26 Feb 2024
Effective and Efficient Conversation Retrieval for Dialogue State Tracking with Implicit Text Summaries Seanie Lee Jianpeng Cheng Joris Driesen Alexandru Coca Anders Johannsen RALM 20 1 0 20 Feb 2024
Data-CUBE: Data Curriculum for Instruction-based Sentence Representation Learning Yingqian Min Kun Zhou Dawei Gao Wayne Xin Zhao He Hu Yaliang Li 14 1 0 07 Jan 2024
Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents Michael Gunther Jackmin Ong Isabelle Mohr Alaeddine Abdessalem Tanguy Abel ... Saba Sturua Bo Wang Maximilian Werk Nan Wang Han Xiao RALM 19 31 0 30 Oct 2023
Text and Code Embeddings by Contrastive Pre-Training Arvind Neelakantan Tao Xu Raul Puri Alec Radford Jesse Michael Han ... Tabarak Khan Toki Sherbakov Joanne Jang Peter Welinder Lilian Weng SSL AI4TS 204 412 0 24 Jan 2022
BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models Nandan Thakur Nils Reimers Andreas Rucklé Abhishek Srivastava Iryna Gurevych VLM 229 961 0 17 Apr 2021
RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering Yingqi Qu Yuchen Ding Jing Liu Kai Liu Ruiyang Ren Xin Zhao Daxiang Dong Hua-Hong Wu Haifeng Wang RALM OffRL 206 593 0 16 Oct 2020