Energy-Based Preference Model Offers Better Offline Alignment than the Bradley-Terry Preference Model

18 December 2024

Papers citing "Energy-Based Preference Model Offers Better Offline Alignment than the Bradley-Terry Preference Model"

1 / 1 papers shown

Title
Energy-Based Reward Models for Robust Language Model Alignment Anamika Lochab Ruqi Zhang 46 0 0 17 Apr 2025