BeanCounter: A low-toxicity, large-scale, and open dataset of business-oriented text

26 September 2024

Papers citing "BeanCounter: A low-toxicity, large-scale, and open dataset of business-oriented text"

1 / 1 papers shown

Title
Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization Xiyue Peng Hengquan Guo Jiawei Zhang Dongqing Zou Ziyu Shao Honghao Wei Xin Liu 32 0 0 25 Oct 2024