SuperCLUE 是一个中文通用大...
SuperCLUE 是一个中文通用大模型综合性评测基准,从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。
HELM全称Holistic Evaluation...
OpenCompass是由上海人工智能...
H2O EvalGPT 是 H2O.ai 用于...
PubMedQA是一个生物医学研究...
MMBench是一个多模态基准测试...
MMLU 全称 Massive Multitask...