Title
Leveraging Submodule Linearity Enhances Task Arithmetic Performance in LLMs Rui Dai Sile Hu Xu Shen Yonggang Zhang Xinmei Tian Jieping Ye MoMe 34 2 0 15 Apr 2025
How to Mitigate Overfitting in Weak-to-strong Generalization? Junhao Shi Qinyuan Cheng Zhaoye Fei Y. Zheng Qipeng Guo Xipeng Qiu 65 0 0 06 Mar 2025
Have the VLMs Lost Confidence? A Study of Sycophancy in VLMs Shuo Li Tao Ji Xiaoran Fan Linsheng Lu L. Yang ... Y. Wang Xiaohui Zhao Tao Gui Qi Zhang Xuanjing Huang 33 0 0 15 Oct 2024
Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small Kevin Wang Alexandre Variengien Arthur Conmy Buck Shlegeris Jacob Steinhardt 205 486 0 01 Nov 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022