中文通用大模型综合性测评基准。
SuperCLUE是针对中文通用大模型的综合性测评基准。
旨在科学、客观、中立地评估不同模型在中文环境下的表现。评测覆盖语言理解、知识问答、代码生成、推理能力等多个维度,是国内权威的AI模型评测平台之一。
核心功能: – 中文评测基准 – 多维能力评估 – 权威排行榜
开源大模型评测平台,支持全栈评测能力。
在线AI模型评测平台,三个模型生成回答,第四个模型进行评判。
AI模型评估平台,支持多模型对比和性能评测。
智源研究院推出的FlagEval(天秤)大模型评测平台,科学、公正、开放的大模型评测体系及开放平台。
全方位的多模态大模型能力评测体系。