SuperCLUE 是一个中文通用大...
SuperCLUE 是一个中文通用大模型综合性评测基准,从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。
MMLU 全称 Massive Multitask...
FlagEval(天秤)由智源研究...
HELM全称Holistic Evaluation...
Open LLM Leaderboard 是最大...
PubMedQA是一个生物医学研究...
CMMLU是一个综合性的中文评估...