Judger Agent 详细指南
JudgerAgent 是 LoopAI 闭环中的评测节点,主要负责把“当前模型表现如何”这件事测清楚。
核心职责
- 执行评测任务
- 调用本地或远程模型服务完成推理
- 生成样例输出、分数与评测结果
进入它之前通常要准备什么
常见前置条件包括:
judger.eval_task_typejudger.eval_model_pathjudger.eval_base_url或本地 vLLM 相关配置- 评测数据集、任务配置或评测脚本相关字段
它的输入和输出可以怎么理解
输入通常是:
- 模型信息
- 评测任务定义
- 数据集与配置
输出通常是:
- 样例输出
- 评测结果
- 可供 Analyzer 继续使用的结果路径
在闭环中的位置
Judger 通常是闭环里真正开始执行的第一层。没有这一步,后续分析、数据获取和训练都缺少可靠依据。
使用时最该关注什么
- 模型服务是否真的可用
- 评测任务是否与目标场景匹配
- 结果路径是否成功生成
- 输出样例是否能支持后续问题分析