Constructor Agent 详细指南

ConstructorAgent 负责把原始候选数据整理成更适合训练的数据。它位于数据获取之后、模型训练之前，是把“可用原料”变成“可训练样本”的关键一层。

核心职责

通常需要具备以下输入：

Constructor 的配置通常写在 state.constructor 或 starter.yaml 的 default_states.constructor 中。

如果主流程里部分字段为空，Constructor 会从 state.obtainer 中兼容继承同名字段。

字段	作用
`model_path` / `base_url` / `api_key`	调用 OpenAI-compatible 聊天模型，用于清洗规划、自定义格式映射和 CoT 处理。
`category`	数据类别，通常为 `PT` 或 `SFT`。
`download_dir` / `intermediate_data_path` / `output_dir`	指定下载数据、清洗中间数据和输出目录。
`postprocess_version`	选择后处理路径，默认值为 `agent_v2`。
`max_samples_before_cleaning` / `cleaning_random_seed`	控制清洗前采样规模和可复现性。
`llm_timeout` / `max_retries` / `max_concurrent_mapping`	控制 LLM 调用、重试和映射并发。
`default_mapping_format`	非空时可跳过格式确认，直接进入预设格式映射。
`benchmark_source_dir` / `benchmark_pool_path` / `benchmark_pool_size`	配置 benchmark-aware 清洗和采样池。

输入通常包括：

输出通常包括：

Constructor 是“原始数据”到“训练数据”之间的桥梁。

在闭环里，它通常位于：

text

Analyzer -> Obtainer / WebCrawler -> Constructor -> Trainer

前面的节点负责发现问题和获取数据，Constructor 负责把这些数据处理成真正可用于训练的样本。