通用文本数据合成算子

2365 字约 8 分钟

2025-06-24

目前Dataflow集成了五种基础文本数据合成器，涉及预训练文档数据、SFT格式数据、多轮对话等不同格式。

名称	适用类型	简介	官方仓库或论文
PretrainGenerator	预训练	使用预训练文档数据合成类phi-4问答数据对，使用QA格式复述文档	Paper
SFTGeneratorSeed	SFT	根据种子文档合成SFT格式QA数据对，并返回原文信息	-
CondorGenerator	SFT	根据预置知识树标签，两阶段从0合成SFT格式数据（合成数量大于5000时建议增加标签数量）	paper
PromptedGenerator	-	根据用户自定义prompt进行数据生成	-
ConsistentChatGenerator	多轮对话	根据预置主题和人类意图，两阶段从0合成多轮对话格式数据（合成数量大于9000时建议增加标签数量）	paper

算子接口调用说明

特别地，对于指定存储路径等或是调用模型的算子，我们提供了封装后的模型接口以及存储对象接口，可以通过以下方式为算子进行模型API参数预定义：

from dataflow.llmserving import APILLMServing_request

api_llm_serving = APILLMServing_request(
                api_url="your_api_url",
                model_name="model_name",
                max_workers=5
        )

可以通过以下方式为算子进行存储参数预定义：

from dataflow.utils.storage import FileStorage

 self.storage = FileStorage(
            first_entry_file_name="your_file_path",
            cache_path="./cache",
            file_name_prefix="dataflow_cache_step",
            cache_type="jsonl", # jsonl, json, ...
        )

后文使用的api_llm_serving以及self.storage即为此处已定义的接口对象，完整调用示例可参考test/test_general_text.py。

对于传参，算子对象的构造函数主要传递与算子配置相关的信息，配置后可以一配置多调用；而X.run()函数传递与IO相关的key信息，详细可见后文算子说明示例。

当合成对话的数量超过 9000 条时，建议在 ConsistentChatPrompt 中扩展 topic_dict，以提升生成对话的多样性和覆盖范围。为了保证输出数据的质量，算子会自动跳过格式不合规或无法解析的生成结果，确保最终得到的对话结构清晰、内容合理。在生成多轮对话的过程中，该算子会对每条对话调用两次 LLM 接口（一次生成用户提问，一次生成助手回答），因此需要确保所使用的 LLM 服务稳定、响应迅速。

通用文本数据合成算子

算子接口调用说明

详细算子说明

1. PretrainGenerator✨

2. SFTGeneratorSeed✨

3. CondorGenerator✨🚀

4. PromptedGenerator✨

5. ConsistentChatGenerator ✨