Skip to content

Judger Agent 详细指南

JudgerAgent 是 LoopAI 闭环中的评测节点,主要负责把“当前模型表现如何”这件事测清楚。

核心职责

  • 执行评测任务
  • 调用本地或远程模型服务完成推理
  • 生成样例输出、分数与评测结果

进入它之前通常要准备什么

常见前置条件包括:

  • judger.eval_task_type
  • judger.eval_model_path
  • judger.eval_base_url 或本地 vLLM 相关配置
  • 评测数据集、任务配置或评测脚本相关字段

它的输入和输出可以怎么理解

输入通常是:

  • 模型信息
  • 评测任务定义
  • 数据集与配置

输出通常是:

  • 样例输出
  • 评测结果
  • 可供 Analyzer 继续使用的结果路径

在闭环中的位置

Judger 通常是闭环里真正开始执行的第一层。没有这一步,后续分析、数据获取和训练都缺少可靠依据。

使用时最该关注什么

  • 模型服务是否真的可用
  • 评测任务是否与目标场景匹配
  • 结果路径是否成功生成
  • 输出样例是否能支持后续问题分析

Built with VitePress for LoopAI