SuperCLUE 是一个中文通用大...
SuperCLUE 是一个中文通用大模型综合性评测基准,从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。
H2O EvalGPT 是 H2O.ai 用于...
MMLU 全称 Massive Multitask...
LLMEval是由复旦大学NLP实验...
Open LLM Leaderboard 是最大...
FlagEval(天秤)由智源研究...
CMMLU是一个综合性的中文评估...