Trainer Agent 详细指南
TrainerAgent 负责把前面的分析和数据工作真正转化成模型更新。
核心职责
- 发起训练任务
- 记录和回传训练日志
- 产出可用于下一轮评测的新模型
进入它之前通常要准备什么
训练前通常要确认:
- 训练数据已准备完成
- 训练框架配置有效
- 训练环境路径可用
- 输出模型目录明确
当前最值得优先讲什么
当前教程里,最适合作为主路径介绍的是:
- 基于 Llama-Factory 的 SFT
verl 可以保留为规划项,但不建议当成当前主线来写。
它的输入和输出可以怎么理解
输入通常是:
- 已处理好的训练数据
- 训练配置
- 训练框架环境
输出通常是:
- 训练日志
- 训练状态
- 新模型或新检查点
在闭环中的位置
Trainer 是闭环里真正完成“模型更新”的一步,后面通常会再次回到 Judger 进入下一轮评测。
使用时最该关注什么
- 训练是否真的成功启动
- 日志是否持续更新
- 产出的模型是否能进入下一轮验证