Generalizing Trust: Weak-to-Strong Trustworthiness in Language Models

3 January 2025

Papers citing "Generalizing Trust: Weak-to-Strong Trustworthiness in Language Models"

1 / 1 papers shown

Title
Understanding the Capabilities and Limitations of Weak-to-Strong Generalization Wei Yao Wenkai Yang Z. Wang Yankai Lin Yong Liu ELM 99 1 0 03 Feb 2025