Post-hoc Reward Calibration: A Case Study on Length Bias

25 September 2024

Zili Wang

Papers citing "Post-hoc Reward Calibration: A Case Study on Length Bias"

2 / 2 papers shown

Title
Multimodal Graph Representation Learning for Robust Surgical Workflow Recognition with Adversarial Feature Disentanglement Long Bai Boyi Ma Ruohan Wang Guankun Wang Beilei Cui ... Mobarakol Islam Zhe Min Jiewen Lai Nassir Navab Hongliang Ren 38 0 0 03 May 2025
Energy-Based Reward Models for Robust Language Model Alignment Anamika Lochab Ruqi Zhang 36 0 0 17 Apr 2025