Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation

16 January 2024

Lingfeng Shen

Young Jin Kim

Papers citing "Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation"

50 / 151 papers shown

Title
InfoPO: On Mutual Information Maximization for Large Language Model Alignment Teng Xiao Zhen Ge Sujay Sanghavi Tian Wang Julian Katz-Samuels Marc Versage Qingjun Cui Trishul M. Chilimbi 16 0 0 13 May 2025
FairPO: Robust Preference Optimization for Fair Multi-Label Learning Soumen Kumar Mondal Akshit Varmora Prateek Chanda Ganesh Ramakrishnan 25 0 0 05 May 2025
SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning Tianjian Li Daniel Khashabi 50 0 0 05 May 2025
LLM Security: Vulnerabilities, Attacks, Defenses, and Countermeasures Francisco Aguilera-Martínez Fernando Berzal PILM 45 0 0 02 May 2025
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math Haoran Xu Baolin Peng Hany Awadalla Dongdong Chen Yen-Chun Chen ... Yelong Shen S. Wang Weijian Xu Jianfeng Gao Weizhu Chen ReLM LRM 68 0 0 30 Apr 2025
Fine-Tuning LLMs for Low-Resource Dialect Translation: The Case of Lebanese Silvana Yakhni Ali Chehab 31 0 0 30 Apr 2025
HyPerAlign: Hypotheses-driven Personalized Alignment Cristina Garbacea Chenhao Tan 44 0 0 29 Apr 2025
Calibrating Translation Decoding with Quality Estimation on LLMs Di Wu Yibin Lei Christof Monz 70 0 0 26 Apr 2025
Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model Junshu Pan Wei Shen Shulin Huang Qiji Zhou Yue Zhang 69 0 0 22 Apr 2025
Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data Wei Zou Sen Yang Yu Bao Shujian Huang Jiajun Chen Shanbo Cheng SyDa 24 0 0 20 Apr 2025
Understanding the Repeat Curse in Large Language Models from a Feature Perspective Junchi Yao Shu Yang Jianhua Xu Lijie Hu Mengdi Li Di Wang 22 0 0 19 Apr 2025
Remedy: Learning Machine Translation Evaluation from Human Preferences with Reward Modeling Shaomu Tan Christof Monz 32 0 0 18 Apr 2025
Training Small Reasoning LLMs with Cognitive Preference Alignment Wenrui Cai Chengyu Wang Junbing Yan Jun Huang Xiangzhong Fang LRM 26 0 0 14 Apr 2025
Learning from Reference Answers: Versatile Language Model Alignment without Binary Human Preference Data Shuai Zhao Linchao Zhu Yi Yang 37 1 0 14 Apr 2025
LLMs Can Achieve High-quality Simultaneous Machine Translation as Efficiently as Offline Biao Fu Minpeng Liao Kai Fan Chengxi Li L. Zhang Yidong Chen Xiaodong Shi OffRL 44 1 0 13 Apr 2025
A Comprehensive Survey of Reward Models: Taxonomy, Applications, Challenges, and Future Jialun Zhong Wei Shen Yanzeng Li Songyang Gao Hua Lu Yicheng Chen Yang Zhang Wei Zhou Jinjie Gu Lei Zou LRM 38 1 0 12 Apr 2025
Redefining Machine Translation on Social Network Services with Large Language Models Hongcheng Guo Fei Zhao Shaosheng Cao Xinze Lyu Z. Liu ... Boyang Wang Z. Li Chonggang Lu Zhe Xu Yao Hu 23 0 0 10 Apr 2025
Two Intermediate Translations Are Better Than One: Fine-tuning LLMs for Document-level Translation Refinement Yichen Dong Xinglin Lyu Junhui Li Daimeng Wei Min Zhang Shimin Tao Hao Yang 21 0 0 08 Apr 2025
More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment Yifan Wang Runjin Chen Bolian Li David Cho Yihe Deng Ruqi Zhang Tianlong Chen Zhangyang Wang A. Grama Junyuan Hong SyDa 48 0 0 03 Apr 2025
DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models S. Jung Donghun Lee Shinbok Lee Gaeun Seo Daniel Lee Byeongil Ko Junrae Cho Kihyun Kim EungGyun Kim M. Shin 36 0 0 02 Apr 2025
Bridging the Linguistic Divide: A Survey on Leveraging Large Language Models for Machine Translation Baban Gain Dibyanayan Bandyopadhyay Asif Ekbal LM&MA 52 0 0 02 Apr 2025
Entropy-Based Adaptive Weighting for Self-Training Xiaoxuan Wang Yihe Deng Mingyu Derek Ma Wei Wang LRM 45 0 0 31 Mar 2025
PIM-LLM: A High-Throughput Hybrid PIM Architecture for 1-bit LLMs Jinendra Malekar Peyton S. Chandarana Md Hasibul Amin Mohammed E. Elbtity Ramtin Zand 26 1 0 31 Mar 2025
Scaling Auditory Cognition via Test-Time Compute in Audio Language Models Ting Dang Yan Gao Hong Jia 36 0 0 30 Mar 2025
SARGes: Semantically Aligned Reliable Gesture Generation via Intent Chain Nan Gao Yihua Bao Dongdong Weng Jiayi Zhao Jia Li Yan Zhou Pengfei Wan Di Zhang SLR 96 0 0 26 Mar 2025
Latent Embedding Adaptation for Human Preference Alignment in Diffusion Planners Wen Zheng Terence Ng Jianda Chen Yuan Xu Tianwei Zhang 37 0 0 24 Mar 2025
InCo-DPO: Balancing Distribution Shift and Data Quality for Enhanced Preference Optimization Yunan Wang Jijie Li Bo Zhang Liangdong Wang Guang Liu 58 0 0 20 Mar 2025
MT-RewardTree: A Comprehensive Framework for Advancing LLM-Based Machine Translation via Reward Modeling Zhaopeng Feng Jiahan Ren Jiayuan Su Jiamei Zheng Zhihang Tang Hongwei Wang Zuozhu Liu LRM 46 1 0 15 Mar 2025
Adding Chocolate to Mint: Mitigating Metric Interference in Machine Translation José P. Pombal Nuno M. Guerreiro Ricardo Rei André F. T. Martins 58 0 0 11 Mar 2025
RePO: ReLU-based Preference Optimization Junkang Wu Kexin Huang Xue Wang Jinyang Gao Bolin Ding Jiancan Wu Xiangnan He X. Wang 71 0 0 10 Mar 2025
Lost in Literalism: How Supervised Training Shapes Translationese in LLMs Yafu Li Ronghao Zhang Zhilin Wang Huajian Zhang Leyang Cui Yongjing Yin Tong Xiao Yue Zhang 66 0 0 06 Mar 2025
Compositional Translation: A Novel LLM-based Approach for Low-resource Machine Translation A. Zebaze Benoît Sagot Rachel Bawden 70 0 0 06 Mar 2025
Preserving Cultural Identity with Context-Aware Translation Through Multi-Agent AI Systems Mahfuz Ahmed Anik Abdur Rahman Azmine Toushik Wasi Md Manjurul Ahsan 47 1 0 05 Mar 2025
Plan2Align: Predictive Planning Based Test-Time Preference Alignment in Paragraph-Level Machine Translation Kuang-Da Wang Teng-Ruei Chen Yu-Heng Hung Shuoyang Ding Yueh-Hua Wu Yu-Chun Wang Chao-Han Huck Yang Wen-Chih Peng Ping-Chun Hsieh 63 0 0 28 Feb 2025
OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment Jiaxin Deng Shiyao Wang Kuo Cai Lejian Ren Qigen Hu Weifeng Ding Qiang Luo Guorui Zhou 74 2 0 26 Feb 2025
AMPO: Active Multi-Preference Optimization Taneesh Gupta Rahul Madhavan Xuchao Zhang Chetan Bansal Saravan Rajmohan 55 0 0 25 Feb 2025
Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data Siqi Guo Ilgee Hong Vicente Balmaseda Changlong Yu Liang Qiu Xin Liu Haoming Jiang Tuo Zhao Tianbao Yang 43 0 0 25 Feb 2025
CuDIP: Enhancing Theorem Proving in LLMs via Curriculum Learning-based Direct Preference Optimization Shuming Shi Ruobing Zuo Gaolei He Jianlin Wang Chenyang Xu Zhengfeng Yang 60 0 0 25 Feb 2025
Post-edits Are Preferences Too Nathaniel Berger Stefan Riezler M. Exel Matthias Huck 32 0 0 24 Feb 2025
From Documents to Dialogue: Building KG-RAG Enhanced AI Assistants Manisha Mukherjee Sungchul Kim Xiang Chen Dan Luo Tong Yu Tung Mai RALM 47 1 0 24 Feb 2025
SimPER: A Minimalist Approach to Preference Alignment without Hyperparameters Teng Xiao Yige Yuan Z. Chen Mingxiao Li Shangsong Liang Z. Ren V. Honavar 93 5 0 21 Feb 2025
Faster WIND: Accelerating Iterative Best-of- $N$ Distillation for LLM Alignment Tong Yang Jincheng Mei H. Dai Zixin Wen Shicong Cen Dale Schuurmans Yuejie Chi Bo Dai 36 4 0 20 Feb 2025
Simplify RLHF as Reward-Weighted SFT: A Variational Method Yuhao Du Z. Li Pengyu Cheng Zhihong Chen Yuejiao Xie Xiang Wan Anningzhe Gao 35 1 0 20 Feb 2025
Exploring Translation Mechanism of Large Language Models Hongbin Zhang Kehai Chen Xuefeng Bai Xiucheng Li Yang Xiang Min Zhang 57 1 0 17 Feb 2025
Preference learning made easy: Everything should be understood through win rate Lily H. Zhang Rajesh Ranganath 77 0 0 14 Feb 2025
Design Considerations in Offline Preference-based RL Alekh Agarwal Christoph Dann T. V. Marinov OffRL 45 0 0 08 Feb 2025
Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study Menglong Cui Pengzhi Gao Wei Liu Jian Luan Bin Wang LRM 41 0 0 04 Feb 2025
VidChain: Chain-of-Tasks with Metric-based Direct Preference Optimization for Dense Video Captioning Ji Soo Lee Jongha Kim Jeehye Na Jinyoung Park H. Kim VGen 36 0 0 12 Jan 2025
Understanding the Logic of Direct Preference Alignment through Logic Kyle Richardson Vivek Srikumar Ashish Sabharwal 82 1 0 23 Dec 2024
REFA: Reference Free Alignment for multi-preference optimization Taneesh Gupta Rahul Madhavan Xuchao Zhang Chetan Bansal Saravan Rajmohan 81 1 0 20 Dec 2024