SuperCLUE 是一个中文通用大...
SuperCLUE 是一个中文通用大模型综合性评测基准,从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。
LLMEval是由复旦大学NLP实验...
H2O EvalGPT 是 H2O.ai 用于...
Chatbot Arena是一个大型语言...
OpenCompass是由上海人工智能...
HELM全称Holistic Evaluation...
FlagEval(天秤)由智源研究...