开源大模型评测平台,支持全栈评测能力。
全方位的多模态大模型能力评测体系。
中文通用大模型综合性测评基准。
AI模型评估平台,支持多模型对比和性能评测。
在线AI模型评测平台,三个模型生成回答,第四个模型进行评判。
智源研究院推出的FlagEval(天秤)大模型评测平台,科学、公正、开放的大模型评测体系及开放平台。