通用文本数据合成算子
394 字约 1 分钟
2025-06-24
目前Dataflow集成了五种基础文本数据合成器,涉及预训练文档数据、SFT格式数据、多轮对话等不同格式。
名称 | 适用类型 | 简介 | 官方仓库或论文 |
---|---|---|---|
PretrainGenerator | 预训练 | 使用预训练文档数据合成类phi-4问答数据对,使用QA格式复述文档 | Paper |
SFTGeneratorSeed | SFT | 根据种子文档合成SFT格式QA数据对,并返回原文信息 | - |
CondorGenerator | SFT | 根据预置知识树标签,两阶段从0合成SFT格式数据(合成数量大于5000时建议增加标签数量) | paper |
PromptedGenerator | - | 根据用户自定义prompt进行数据生成 | - |
ConsistentChatGenerator | 多轮对话 | 根据预置主题和人类意图,两阶段从0合成多轮对话格式数据(合成数量大于9000时建议增加标签数量) | paper |