Skip to content

Trainer Agent 详细指南

TrainerAgent 负责把前面的分析和数据工作真正转化成模型更新。

核心职责

  • 发起训练任务
  • 记录和回传训练日志
  • 产出可用于下一轮评测的新模型

进入它之前通常要准备什么

训练前通常要确认:

  • 训练数据已准备完成
  • 训练框架配置有效
  • 训练环境路径可用
  • 输出模型目录明确

当前最值得优先讲什么

当前教程里,最适合作为主路径介绍的是:

  • 基于 Llama-Factory 的 SFT

verl 可以保留为规划项,但不建议当成当前主线来写。

它的输入和输出可以怎么理解

输入通常是:

  • 已处理好的训练数据
  • 训练配置
  • 训练框架环境

输出通常是:

  • 训练日志
  • 训练状态
  • 新模型或新检查点

在闭环中的位置

Trainer 是闭环里真正完成“模型更新”的一步,后面通常会再次回到 Judger 进入下一轮评测。

使用时最该关注什么

  • 训练是否真的成功启动
  • 日志是否持续更新
  • 产出的模型是否能进入下一轮验证

Built with VitePress for LoopAI