SuperCLUE 是一个中文通用大...
SuperCLUE 是一个中文通用大模型综合性评测基准,从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。
C-Eval是一个适用于大语言模...
Open LLM Leaderboard 是最大...
Chatbot Arena是一个大型语言...
PubMedQA是一个生物医学研究...
MMLU 全称 Massive Multitask...
HELM全称Holistic Evaluation...