ICDPO: Effectively Borrowing Alignment Capability of Others via
In-context Direct Preference Optimization

ICDPO: Effectively Borrowing Alignment Capability of Others via In-context Direct Preference Optimization

14 February 2024

Feifan Song

Peiyi Wang

Houfeng Wang

Papers citing "ICDPO: Effectively Borrowing Alignment Capability of Others via In-context Direct Preference Optimization"

7 / 7 papers shown

Title
Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback Yafu Li Xuyang Hu Xiaoye Qu Linjie Li Yu-Xi Cheng 44 3 0 22 Jan 2025
Targeted Vaccine: Safety Alignment for Large Language Models against Harmful Fine-Tuning via Layer-wise Perturbation Guozhi Liu Weiwei Lin Tiansheng Huang Ruichao Mo Qi Mu Li Shen AAML 56 9 0 13 Oct 2024
Towards a Unified View of Preference Learning for Large Language Models: A Survey Bofei Gao Feifan Song Yibo Miao Zefan Cai Z. Yang ... Houfeng Wang Zhifang Sui Peiyi Wang Baobao Chang Baobao Chang 41 11 0 04 Sep 2024
Direct Alignment of Language Models via Quality-Aware Self-Refinement Runsheng Yu Yong Wang Xiaoqi Jiao Youzhi Zhang James T. Kwok 48 7 0 31 May 2024
KnowTuning: Knowledge-aware Fine-tuning for Large Language Models Yougang Lyu Lingyong Yan Shuaiqiang Wang Haibo Shi Dawei Yin Pengjie Ren Zhumin Chen Maarten de Rijke Zhaochun Ren 16 5 0 17 Feb 2024
Not All Demonstration Examples are Equally Beneficial: Reweighting Demonstration Examples for In-Context Learning Zhe Yang Damai Dai Peiyi Wang Zhifang Sui 34 8 0 12 Oct 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022