Papers citing 'Annotation-Efficient Language Model Alignment via Diverse and Representative Response Texts'

Title
Sem-DPO: Mitigating Semantic Inconsistency in Preference Optimization for Prompt Engineering Anas Mohamed A. Khan Xinran Wang Ahmad Faraz Khan Shuwen Ge Saman Bahzad Khan Ayaan Ahmad Ali Anwar 147 0 0 27 Jul 2025
The Power of Active Multi-Task Learning in Reinforcement Learning from Human Feedback Ruitao Chen Liwei Wang 270 1 0 18 May 2024
Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators Yann Dubois Balázs Galambosi Abigail Z. Jacobs Tatsunori Hashimoto ALM 390 573 0 06 Apr 2024
Self-Rewarding Language Models Weizhe Yuan Richard Yuanzhe Pang Kyunghyun Cho Xian Li Sainbayar Sukhbaatar Jing Xu Jason Weston ReLM SyDa ALM LRM 802 440 0 18 Jan 2024