Multi-Level Optimal Transport for Universal Cross-Tokenizer Knowledge Distillation on Language Models

19 December 2024

Papers citing "Multi-Level Optimal Transport for Universal Cross-Tokenizer Knowledge Distillation on Language Models"

2 / 2 papers shown

Title
A Dual-Space Framework for General Knowledge Distillation of Large Language Models X. Zhang Songming Zhang Yunlong Liang Fandong Meng Yufeng Chen Jinan Xu Jie Zhou 17 0 0 15 Apr 2025
Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling Haebin Shin Lei Ji Xiao Liu Yeyun Gong 49 0 0 24 Mar 2025