Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation

21 April 2020

Papers citing "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation"

50 / 109 papers shown

Title
Efficient Domain-adaptive Continual Pretraining for the Process Industry in the German Language Anastasia Zhukova Christian E. Matt Terry Ruas Bela Gipp CLL VLM 98 0 0 28 Apr 2025
Knowledge Distillation of Domain-adapted LLMs for Question-Answering in Telecom Rishika Sen Sujoy Roychowdhury Sumit Soman H. G. Ranjani Srikhetra Mohanty 61 0 0 28 Apr 2025
Catch Me if You Search: When Contextual Web Search Results Affect the Detection of Hallucinations Mahjabin Nahar Eun-Ju Lee Jin Won Park Dongwon Lee HILM 71 0 0 01 Apr 2025
Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation Yingfeng Luo Tong Zheng Yongyu Mu B. Li Qinghong Zhang ... Ziqiang Xu Peinan Feng Xiaoqian Liu Tong Xiao Jingbo Zhu AI4CE 118 0 0 09 Mar 2025
Shifting Long-Context LLMs Research from Input to Output Yuhao Wu Yushi Bai Zhiqing Hu Shangqing Tu Ming Shan Hee Juanzi Li Roy Ka-Wei Lee 57 0 0 06 Mar 2025
A Dataset for Analysing News Framing in Chinese Media Owen Cook Yida Mu Xinye Yang Xingyi Song Kalina Bontcheva 60 1 0 06 Mar 2025
LeDex: Training LLMs to Better Self-Debug and Explain Code Nan Jiang Xiaopeng Li Shiqi Wang Qiang Zhou Soneya Binta Hossain Baishakhi Ray Varun Kumar Xiaofei Ma Anoop Deoras LRM 89 11 0 17 Feb 2025
Hashtag Re-Appropriation for Audience Control on Recommendation-Driven Social Media Xiaohongshu (rednote) Ruyuan Wan Lingbo Tong Tiffany Knearem Toby Jia-Jun Li Ting-Hao 'Kenneth' Huang Qunfang Wu 31 0 0 30 Jan 2025
CLIX: Cross-Lingual Explanations of Idiomatic Expressions Aaron Gluck Katharina von der Wense Maria Pacheco 28 0 0 06 Jan 2025
EventSum: A Large-Scale Event-Centric Summarization Dataset for Chinese Multi-News Documents Mengna Zhu Kaisheng Zeng Mao Wang Kaiming Xiao Lei Hou Hongbin Huang Juanzi Li 150 1 0 16 Dec 2024
GOT4Rec: Graph of Thoughts for Sequential Recommendation Zewen Long Liang Wang Shu Wu Qiang Liu Liang Wang 78 1 0 22 Nov 2024
A Complexity-Based Theory of Compositionality Eric Elmoznino Thomas Jiralerspong Yoshua Bengio Guillaume Lajoie CoGe 56 4 0 18 Oct 2024
Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models Somshubra Majumdar Vahid Noroozi Sean Narenthiran Aleksander Ficek Aleksander Ficek Wasi Uddin Ahmad Jocelyn Huang Jagadeesh Balam Boris Ginsburg SyDa 52 2 0 29 Jul 2024
Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment Yongxin Huang Kexin Wang Goran Glavavs Iryna Gurevych 44 0 0 20 Jul 2024
FarFetched: Entity-centric Reasoning and Claim Validation for the Greek Language based on Textually Represented Environments D. Papadopoulos Katerina Metropoulou N. Matsatsinis N. Papadakis LRM 25 3 0 13 Jul 2024
FrenchToxicityPrompts: a Large Benchmark for Evaluating and Mitigating Toxicity in French Texts Caroline Brun Vassilina Nikoulina 34 1 0 25 Jun 2024
Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 Sai Koneru Thai-Binh Nguyen Ngoc-Quan Pham Danni Liu Zhaolin Li Alexander Waibel Jan Niehues OffRL 28 2 0 24 Jun 2024
Datasets for Multilingual Answer Sentence Selection Matteo Gabburo S. Campese Federico Agostini Alessandro Moschitti 36 0 0 14 Jun 2024
Can't Hide Behind the API: Stealing Black-Box Commercial Embedding Models Manveer Singh Tamber Jasper Xian Jimmy Lin MLAU SILM 119 0 0 13 Jun 2024
Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding Zhihan Zhang Yixin Cao Chenchen Ye Yunshan Ma Lizi Liao Tat-Seng Chua 34 9 0 04 Jun 2024
The Scandinavian Embedding Benchmarks: Comprehensive Assessment of Multilingual and Monolingual Text Embedding K. Enevoldsen Márton Kardos Niklas Muennighoff Kristoffer Laigaard Nielbo 29 9 0 04 Jun 2024
CinePile: A Long Video Question Answering Dataset and Benchmark Ruchit Rawal Khalid Saifullah Ronen Basri David Jacobs Gowthami Somepalli Tom Goldstein 38 39 0 14 May 2024
XAMPLER: Learning to Retrieve Cross-Lingual In-Context Examples Peiqin Lin André F. T. Martins Hinrich Schütze RALM 45 2 0 08 May 2024
High-Dimension Human Value Representation in Large Language Models Samuel Cahyawijaya Delong Chen Yejin Bang Leila Khalatbari Bryan Wilie Ziwei Ji Etsuko Ishii Pascale Fung 63 5 0 11 Apr 2024
IITK at SemEval-2024 Task 1: Contrastive Learning and Autoencoders for Semantic Textual Relatedness in Multilingual Texts Udvas Basak Rajarshi Dutta Shivam Pandey Ashutosh Modi 31 2 0 06 Apr 2024
N-Modal Contrastive Losses with Applications to Social Media Data in Trimodal Space William Theisen Walter J. Scheirer 26 1 0 18 Mar 2024
What's documented in AI? Systematic Analysis of 32K AI Model Cards Weixin Liang Nazneen Rajani Xinyu Yang Ezinwanne Ozoani Eric Wu Yiqun Chen D. Smith James Y. Zou 33 15 0 07 Feb 2024
Find the Cliffhanger: Multi-Modal Trailerness in Soap Operas Carlo Bretti Pascal Mettes Hendrik Vincent Koops Daan Odijk N. V. Noord 27 4 0 29 Jan 2024
SMUTF: Schema Matching Using Generative Tags and Hybrid Features Yu Zhang Mei Di Haozheng Luo Chenwei Xu Richard Tzong-Han Tsai 57 7 0 22 Jan 2024
Hierarchical Classification of Transversal Skills in Job Ads Based on Sentence Embeddings Florin Leon M. Gavrilescu S. Floria A. Minea 15 1 0 10 Jan 2024
Leveraging Domain Adaptation and Data Augmentation to Improve Quránic IR in English and Arabic Vera Pavlova 16 2 0 05 Dec 2023
Searching for Snippets of Open-Domain Dialogue in Task-Oriented Dialogue Datasets Armand Stricker P. Paroubek 21 0 0 23 Nov 2023
Some Like It Small: Czech Semantic Embedding Models for Industry Applications Jirí Bednár Jakub Náplava Petra Barancíková Ondrej Lisický 18 5 0 23 Nov 2023
MacGyver: Are Large Language Models Creative Problem Solvers? Yufei Tian Abhilasha Ravichander Lianhui Qin Ronan Le Bras Raja Marjieh Nanyun Peng Yejin Choi Thomas L. Griffiths Faeze Brahman AI4CE LLMAG 15 11 0 16 Nov 2023
Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval Nandan Thakur Jianmo Ni Gustavo Hernández Ábrego John Wieting Jimmy J. Lin Daniel Matthew Cer RALM 29 12 0 10 Nov 2023
A Process for Topic Modelling Via Word Embeddings Diego Saldana Ulloa 9 0 0 06 Oct 2023
Unsupervised Deep Cross-Language Entity Alignment Chuanyu Jiang Yiming Qian Lijun Chen Yang Gu Xia Xie 15 5 0 19 Sep 2023
C-CLIP: Contrastive Image-Text Encoders to Close the Descriptive-Commentative Gap William Theisen Walter J. Scheirer CLIP VLM 20 2 0 06 Sep 2023
Graecia capta ferum victorem cepit. Detecting Latin Allusions to Ancient Greek Literature Frederick Riemenschneider Anette Frank 14 1 0 23 Aug 2023
Collective Human Opinions in Semantic Textual Similarity Yuxia Wang Shimin Tao Ning Xie Hao-Yu Yang Timothy Baldwin Karin Verspoor 21 4 0 08 Aug 2023
AspectCSE: Sentence Embeddings for Aspect-based Semantic Textual Similarity Using Contrastive Learning and Structured Knowledge Tim Schopf Emanuel Gerber Malte Ostendorff Florian Matthes 48 4 0 15 Jul 2023
KIT's Multilingual Speech Translation System for IWSLT 2023 Danni Liu Thai-Binh Nguyen Sai Koneru Enes Yavuz Ugan Ngoc-Quan Pham Tuan-Nam Nguyen Tu Anh Dinh Carlos Mullov A. Waibel J. Niehues 18 6 0 08 Jun 2023
BUCA: A Binary Classification Approach to Unsupervised Commonsense Question Answering Jie He U. SimonChiLok Víctor Gutiérrez-Basulto Jeff Z. Pan 33 10 0 25 May 2023
Description-Based Text Similarity Shauli Ravfogel Valentina Pyatkin Amir D. N. Cohen Avshalom Manevich Yoav Goldberg 20 5 0 21 May 2023
Knowledge Rumination for Pre-trained Language Models Yunzhi Yao Peng Wang Shengyu Mao Chuanqi Tan Fei Huang Huajun Chen Ningyu Zhang KELM 22 3 0 15 May 2023
Similarity-weighted Construction of Contextualized Commonsense Knowledge Graphs for Knowledge-intense Argumentation Tasks Moritz Plenz Juri Opitz Philipp Heinisch Philipp Cimiano Anette Frank 22 9 0 15 May 2023
Going beyond research datasets: Novel intent discovery in the industry setting Aleksandra Chrabrowa Tsimur Hadeliya D. Kajtoch Robert Mroczkowski Piotr Rybak 8 2 0 09 May 2023
Investigating Lexical Sharing in Multilingual Machine Translation for Indian Languages Sonal Sannigrahi Rachel Bawden 26 0 0 04 May 2023
Are the Best Multilingual Document Embeddings simply Based on Sentence Embeddings? Sonal Sannigrahi Josef van Genabith C. España-Bonet AILaw 34 4 0 28 Apr 2023
Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects Clément Sicard Kajetan Pyszkowski Victor Gillioz 19 7 0 20 Apr 2023