Title
Measuring Hong Kong Massive Multi-Task Language Understanding Chuxue Cao Zhenghao Zhu Junqi Zhu Guoying Lu Siyu Peng Juntao Dai Weijie Shi Sirui Han Yike Guo ELM 172 0 0 04 May 2025
SDIGLM: Leveraging Large Language Models and Multi-Modal Chain of Thought for Structural Damage Identification Wenjie Qu Shiyin Wei Yong Huang Yawu Su Shanshan Lu Hui Li AI4CE 26 0 0 12 Apr 2025
WritingBench: A Comprehensive Benchmark for Generative Writing Yuning Wu Jiahao Mei M. Yan Chenliang Li Shaopeng Lai ... Zijia Wang J.N. Zhang Mengyue Wu Qin Jin Fei Huang 77 3 0 07 Mar 2025
LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models Chuang Liu Renren Jin Yuqi Ren Deyi Xiong ELM 43 0 0 19 Mar 2024
OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models Yang Liu Meng Xu Shuo Wang Liner Yang Haoyu Wang ... Cunliang Kong Yun-Nung Chen Yang Liu Maosong Sun Erhong Yang ELM LRM 38 1 0 21 Feb 2024
PRE: A Peer Review Based Large Language Model Evaluator Zhumin Chu Qingyao Ai Yiteng Tu Haitao Li Yiqun Liu LRM ALM 41 21 0 28 Jan 2024
Evaluating the Generation Capabilities of Large Chinese Language Models Hui Zeng Jingyuan Xue Meng Hao Chen Sun Bin Ning Na Zhang ELM 22 12 0 09 Aug 2023
GLM-130B: An Open Bilingual Pre-trained Model Aohan Zeng Xiao Liu Zhengxiao Du Zihan Wang Hanyu Lai ... Jidong Zhai Wenguang Chen Peng-Zhen Zhang Yuxiao Dong Jie Tang BDL LRM 253 1,073 0 05 Oct 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 339 12,003 0 04 Mar 2022
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 297 6,984 0 20 Apr 2018