Phi4QAGenerator
330 字约 1 分钟
2025-10-09
📘 概述
Phi4QAGenerator 是一个基于给定文档内容生成多轮对话问答数据的算子。其主要功能是将原始的、非结构化的文档内容转换为适合大语言模型(LLM)预训练的对话格式数据,从而扩充高质量的训练语料。
__init__函数
def __init__(self, llm_serving: LLMServingABC)| 参数名 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| llm_serving | LLMServingABC | 必需 | 大语言模型服务实例,用于执行推理与生成。 |
Prompt模板说明
| Prompt 模板名称 | 主要用途 | 适用场景 | 特点说明 |
|---|---|---|---|
run函数
def run(self, storage: DataFlowStorage, input_key: str = "raw_content", output_key: str = "generated_content")| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| storage | DataFlowStorage | 必需 | 数据流存储实例,负责读取与写入数据。 |
| input_key | str | "raw_content" | 输入列名,对应原始文档内容字段。 |
| output_key | str | "generated_content" | 输出列名,对应生成的对话内容字段。 |
🧠 示例用法
from dataflow.operators.text_pt.generate import Phi4QAGenerator
from dataflow.utils.storage import FileStorage
from dataflow.utils.llm_serving import APILLMServing_request
# 准备数据和存储
storage = FileStorage(first_entry_file_name="pt_input.jsonl")
# 初始化 LLM 服务
llm_serving = APILLMServing_request(
api_url="http://<your_llm_api_endpoint>",
model_name="<your_model_name>"
)
# 初始化并运行算子
qa_generator = Phi4QAGenerator(llm_serving=llm_serving)
qa_generator.run(
storage.step(),
input_key='raw_content',
output_key='generated_content'
)🧾 默认输出格式(Output Format)
| 字段 | 类型 | 说明 |
|---|---|---|
| raw_content | str | 输入的原始文档内容。 |
| generated_content | str | 模型生成的多轮对话格式内容。 |

