More RLHF, More Trust? On The Impact of Human Preference Alignment On
Language Model Trustworthiness

More RLHF, More Trust? On The Impact of Human Preference Alignment On Language Model Trustworthiness

29 April 2024

Aaron Jiaxun Li

Satyapriya Krishna

Himabindu Lakkaraju

ArXiv (abs)PDF HTML

Papers citing "More RLHF, More Trust? On The Impact of Human Preference Alignment On Language Model Trustworthiness"

0 / 0 papers shown

Title
No papers found