模型评估概述
356 字约 1 分钟
2026-03-04
DataFlow 提供三种“从易到难”的模型评估方式,覆盖从快速上手到科研级 bench 评测的不同需求。你只需要选择并阅读其中一种文档即可完成评估(三者是不同入口,不需要全部学习)。
如何选择
| 你更像哪类用户 | 你希望怎么用 | 推荐阅读 |
|---|---|---|
| 👶 新手 - 只想快速跑通 | 命令行直接评估(适合 QA 数据,开箱即用) | 模型评估(小白QA快速版) |
| 🧑💻 新手进阶 - 简单调整参数,只进行模型的前后对比 | 通过 pipeline 脚本修改函数传参(更直观) | 模型评估(小白简易版) |
| 🧪 科研工作者 - bench 采用学术通用评测指标 | Benchmark 统一评测框架(划分任务类型,传递完整评测参数) | 模型评估(科研完整版) |
文档入口说明
- 模型评估(小白QA快速版):命令行方式,面向小白,适合对 QA 类型数据做快速评测。
- 模型评估(小白简易版):pipeline 代码方式,面向小白/进阶用户,通过 修改脚本参数 调整评测设置。
- 模型评估(科研完整版):科研完整版评估,面向需要传递完整评测参数评测指定Benchmark的用户。

