Configurable Safety Tuning of Language Models with Synthetic Preference Data

30 March 2024

Papers citing "Configurable Safety Tuning of Language Models with Synthetic Preference Data"

1 / 1 papers shown

Title
Suppressing Pink Elephants with Direct Principle Feedback Louis Castricato Nathan Lile Suraj Anand Hailey Schoelkopf Siddharth Verma Stella Biderman 58 9 0 12 Feb 2024