EnAnchored-X2X: English-Anchored Optimization for Many-to-Many Translation

24 September 2025

Sen Yang

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (28765★)

Main:9 Pages

6 Figures

Bibliography:2 Pages

7 Tables

Appendix:3 Pages

Abstract

Large language models (LLMs) have demonstrated strong machine translation capabilities for English-centric language pairs but underperform in direct non-English (x2x) translation. This work addresses this limitation through a synthetic data generation framework that leverages models' established English-to-x (en2x) capabilities. By extending English parallel corpora into omnidirectional datasets and developing an English-referenced quality evaluation proxy, we enable effective collection of high-quality x2x training data. Combined with preference-based optimization, our method achieves significant improvement across 72 x2x directions for widely used LLMs, while generalizing to enhance en2x performance. The results demonstrate that strategic exploitation of English-centric strengths can bootstrap comprehensive multilingual translation capabilities in LLMs. We release codes, datasets, and model checkpoints atthis https URL

View on arXiv

Comments on this paper