BAPO: Base-Anchored Preference Optimization for Personalized Alignment
in Large Language Models

BAPO: Base-Anchored Preference Optimization for Personalized Alignment in Large Language Models

30 June 2024

Sangmook Kim

Papers citing "BAPO: Base-Anchored Preference Optimization for Personalized Alignment in Large Language Models"

5 / 5 papers shown

Title
Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment Rui Yang Xiaoman Pan Feng Luo Shuang Qiu Han Zhong Dong Yu Jianshu Chen 103 67 0 15 Feb 2024
Personalized Language Modeling from Personalized Human Feedback Xinyu Li Zachary C. Lipton Liu Leqi ALM 63 47 0 06 Feb 2024
Panacea: Pareto Alignment via Preference Adaptation for LLMs Yifan Zhong Chengdong Ma Xiaoyuan Zhang Ziran Yang Haojun Chen Qingfu Zhang Siyuan Qi Yaodong Yang 62 31 0 03 Feb 2024
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark A. Kalyan ELM ReLM LRM 211 1,106 0 20 Sep 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 313 11,953 0 04 Mar 2022