FlagEval | AI导航

FlagEval（天秤）是北京智源人工智能研究院（BAAI）推出的科学、公正、开放的大模型评测体系及开放平台。

平台采用「能力-任务-指标」三维评测框架，从多个维度对大模型的认知能力进行评估，涵盖对话、问答、情感分析等多种应用场景，提供超过22个数据集和8万道评测题目。

核心功能：
– 多维度评测框架：采用「能力-任务-指标」三维评测框架
– 丰富的评测数据集：超过22个数据集和8万道评测题目
– 多模态支持：文本、图像、视频等多种模态
– 自动化评测机制：主观与客观评测的全自动流水线
– 广泛的模型覆盖：超过800个开源和闭源模型
– 排行榜与结果展示
– 社区参与与持续更新
– 兼容多种AI框架（PyTorch和MindSpore）和硬件架构

应用场景：学术研究、工业应用、多模态评测、教育培训、国际对比