CIBench: Evaluating Your LLMs with a Code Interpreter Plugin

CIBench: Evaluating Your LLMs with a Code Interpreter Plugin

15 July 2024

Dahua Lin

Papers citing "CIBench: Evaluating Your LLMs with a Code Interpreter Plugin"

3 / 3 papers shown

Title
MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark Hongwei Liu Zilong Zheng Yuxuan Qiao Haodong Duan Zhiwei Fei Fengzhe Zhou Wenwei Zhang Songyang Zhang Dahua Lin Kai-xiang Chen 46 56 0 20 May 2024
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism DeepSeek-AI Xiao Bi : Xiao Bi Deli Chen Guanting Chen ... Yao Zhao Shangyan Zhou Shunfeng Zhou Qihao Zhu Yuheng Zou LRM ALM 136 298 0 05 Jan 2024
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 220 3,054 0 23 Jan 2020