v1v2v3 (latest)

Evaluating the Performance of Large Language Models on GAOKAO Benchmark

21 May 2023

Xipeng Qiu

Papers citing "Evaluating the Performance of Large Language Models on GAOKAO Benchmark"

16 / 66 papers shown

FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models

Dahua Lin

166

29 Apr 2024

Yi: Open Foundation Models by 01.AI

...

829

764

07 Mar 2024

GAOKAO-MM: A Chinese Human-Level Benchmark for Multimodal Models Evaluation

Yi Zong

Xipeng Qiu

ELM VLM

151

24 Feb 2024

PRE: A Peer Review Based Large Language Model Evaluator

257

28 Jan 2024

LLaMA Beyond English: An Empirical Study on Language Capability Transfer

Xuanjing Huang

368

104

02 Jan 2024

Urban Generative Intelligence (UGI): A Foundational Platform for Agents in Embodied City Environment

Yong Li

324

19 Dec 2023

Evaluating GPT-4's Vision Capabilities on Brazilian University Admission Exams

Ramon Pires

Thales Sales Almeida

Hugo Queiroz Abonizio

Rodrigo Nogueira

ELM

153

23 Nov 2023

CFBenchmark: Chinese Financial Assistant Benchmark for Large Language Model

Dawei Cheng

168

10 Nov 2023

Qwen Technical Report

Jinze Bai

Shuai Bai

Yunfei Chu

Zeyu Cui

Kai Dang

...

Zhenru Zhang

Chang Zhou

Jingren Zhou

Xiaohuan Zhou

Tianhang Zhu

OSLM

793

3,036

28 Sep 2023

LawBench: Benchmarking Legal Knowledge of Large Language Models

Xiaoyu Shen

254

28 Sep 2023

Foundation Metrics for Evaluating Effectiveness of Healthcare Conversations Powered by Generative AI

Zahra Shakeri Hossein Abad

...

497

119

21 Sep 2023

Baichuan 2: Open Large-scale Language Models

...

800

923

19 Sep 2023

AGIBench: A Multi-granularity, Multimodal, Human-referenced, Auto-scoring Benchmark for Large Language ModelsBenchCouncil International Symposium (ISB), 2023

122

05 Sep 2023

CLEVA: Chinese Language Models EVAluation PlatformConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Zhi Chen

...

Michael R. Lyu

316

09 Aug 2023

Model Spider: Learning to Rank Pre-Trained Models EfficientlyNeural Information Processing Systems (NeurIPS), 2023

Han-Jia Ye

291

06 Jun 2023

ExplainCPE: A Free-text Explanation Benchmark of Chinese Pharmacist ExaminationConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Baotian Hu

177

22 May 2023