Utility-inspired Reward Transformations Improve Reinforcement Learning Training of Language Models

8 January 2025

Papers citing "Utility-inspired Reward Transformations Improve Reinforcement Learning Training of Language Models"

1 / 1 papers shown

Title
Robust Multi-Objective Controlled Decoding of Large Language Models Seongho Son William Bankes Sangwoong Yoon Shyam Sundhar Ramesh Xiaohang Tang Ilija Bogunovic 34 0 0 11 Mar 2025