Title
Flames: Benchmarking Value Alignment of LLMs in ChineseNorth American Chapter of the Association for Computational Linguistics (NAACL), 2023 Kexin Huang Xiangyang Liu Qianyu Guo Tianxiang Sun Jiawei Sun ... Yixu Wang Yan Teng Xipeng Qiu Yingchun Wang Dahua Lin ALM 332 28 0 12 Nov 2023
ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human PreferencesAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Yuanhe Tian Ruyi Gan Yan Song Jiaxing Zhang Yongdong Zhang AI4MH AI4CE LM&MA 403 65 0 10 Nov 2023
Fake Alignment: Are LLMs Really Aligned Well?North American Chapter of the Association for Computational Linguistics (NAACL), 2023 Yixu Wang Yan Teng Kexin Huang Chengqi Lyu Songyang Zhang Wenwei Zhang Jiabo He Yu-Gang Jiang Yu Qiao Yingchun Wang 171 38 0 10 Nov 2023
SC-Safety: A Multi-round Open-ended Question Adversarial Safety Benchmark for Large Language Models in Chinese Liang Xu Kangkang Zhao Lei Zhu Hang Xue ELM ALM 121 21 0 09 Oct 2023
Can LLM-Generated Misinformation Be Detected?International Conference on Learning Representations (ICLR), 2023 Canyu Chen Kai Shu DeLMO 713 233 0 25 Sep 2023
Goal-Oriented Prompt Attack and Safety Evaluation for LLMs Chengyuan Liu Fubang Zhao Lizhi Qing Yangyang Kang Changlong Sun Kun Kuang Leilei Gan AAML 137 27 0 21 Sep 2023
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts Jiahao Yu Xingwei Lin Zheng Yu Xinyu Xing SILM 828 490 0 19 Sep 2023
SafetyBench: Evaluating the Safety of Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Zhexin Zhang Leqi Lei Lindong Wu Rui Sun Yongkang Huang Chong Long Xiao Liu Xuanyu Lei Jie Tang Shiyu Huang LRM LM&MA ELM 238 162 0 13 Sep 2023
Benchmarking Large Language Models in Retrieval-Augmented GenerationAAAI Conference on Artificial Intelligence (AAAI), 2023 Jiawei Chen Hongyu Lin Xianpei Han Le Sun 3DV RALM 353 440 0 04 Sep 2023
From Instructions to Intrinsic Human Values -- A Survey of Alignment Goals for Big Models Jing Yao Xiaoyuan Yi Xiting Wang Yongfeng Zhang Xing Xie ALM 341 56 0 23 Aug 2023
Large Language Models Understand and Can be Enhanced by Emotional Stimuli Cheng-rong Li Yongfeng Zhang Yixuan Zhang Lingyao Li Wenxin Hou Jianxun Lian Fang Luo Qiang Yang Xingxu Xie LRM 817 174 0 14 Jul 2023
A Survey on Evaluation of Large Language ModelsACM Transactions on Intelligent Systems and Technology (ACM TIST), 2023 Yu-Chu Chang Xu Wang Yongfeng Zhang Yuanyi Wu Linyi Yang ... Yue Zhang Yi-Ju Chang Philip S. Yu Qian Yang Xingxu Xie ELM LM&MA ALM 700 2,655 0 06 Jul 2023
Towards Safer Generative Language Models: A Survey on Safety Risks, Evaluations, and Improvements Jiawen Deng Jiale Cheng Hao Sun Zhexin Zhang Shiyu Huang LM&MA ELM 187 22 0 18 Feb 2023