Title

Varying Shades of Wrong: Aligning LLMs with Wrong Answers Only

International Conference on Learning Representations (ICLR), 2024

14 October 2024

Papers citing "Varying Shades of Wrong: Aligning LLMs with Wrong Answers Only"

3 / 3 papers shown

Title
CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios Shiting Huang Zhen Fang Zehui Chen Siyu Yuan Junjie Ye Y. Zeng Lin Yen-Chen Qi Mao Feng Zhao LLMAG KELM 181 1 0 11 Jun 2025
SPARTA ALIGNMENT: Collectively Aligning Multiple Language Models through Combat Yuru Jiang Wenxuan Ding Shangbin Feng Greg Durrett Yulia Tsvetkov 309 2 0 05 Jun 2025
Self-Rewarding Language Models Weizhe Yuan Richard Yuanzhe Pang Kyunghyun Cho Xian Li Sainbayar Sukhbaatar Jing Xu Jason Weston ReLM SyDa ALM LRM 839 448 0 18 Jan 2024