Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference

Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference

25 September 2024

Papers citing "Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference"

Title
No papers