快速开始
750 字约 3 分钟
2025-06-30
DataFlow使用了类似create-react-app或者vue-cli的“代码生成”的使用范式。即通过命令行调用,自动生成运行脚本和入口Python文件,经过用户定制化修改后(比如更换数据集,使用不同的大模型API,重新微调算子),运行该Python文件以执行相应功能。
具体来说,当参考上一节成功安装DataFLow后,请找一个空的工作路径准备体验DataFLow。切换到该路径下后执行:
dataflow init即会在当前工作路径生成三个文件夹cpu, api, gpu,以及一个用于存放默认样例数据的example_data文件夹。
我们每一条预设好的Pipeline都提供了三种模式,分别放置在这三个文件夹下。根据运行Pipeline所需的算子的资源类型进行分类,参考下表:
| 用户类别 | 仅需CPU的算子 | 需要大模型API的算子 | 需要本地部署GPU的算子 |
|---|---|---|---|
cpu | √ | ||
api | √ | √ | |
gpu | √ | √ | √ |
不同文件夹下的同名pipeline是包含关系。即gpu文件夹下的pipeline最长,包含全部功能。去掉了需要本地部署GPU模型的算子就变成了api文件夹下的pipeline。再进一步去掉了需要大模型后端的算子就变成了cpu下的pipeline。
特别的,这里的apipipeline是可以通过修改其中的LLMServing为本地GPU模型(比如Qwen-3, llama等模型)来将其部署在本地的。相比于gpupipeline,apipipeline中被去掉的算子主要是因为gpu中调用了一些vllm后端无法部署的,非常规LLM的模型。
随后,切换到对应路径下即可看到各种我们预设好的Pipeline所对应的Python文件。
对于这些文件,默认的入口数据集是存放在exapmle_data文件夹下的json文件。你可以通过修改storage类中的first_entry_file_name字段来将其指向你要处理的原始数据集。
self.storage = FileStorage(
first_entry_file_name="../example_data/AgenticRAGPipeline/pipeline_small_chunk.json",
cache_path="./cache_local", # 缓存路径
file_name_prefix="dataflow_cache_step", # 缓存文件的文件名
cache_type="json", # 中间缓存文件的文件类型
)此外,你可能还需要根据你的设备或你拥有的api_url修改LLMServing类来使用你本地下载好的模型或者在线大模型API。
特别的,如果你使用 API 方式调用,则需要向环境变量输出 api_key 字段,在 Linux 下是:
export api_key=sh-xxxxx在 Windows 下,可以使用以下命令设置环境变量:
set api_key=sh-xxxxx或者在 PowerShell 中使用:
$env:api_key = "sh-xxxxx"设置完成后,程序就可以从环境中读取该 API 密钥进行调用。确保不要将密钥暴露在公开代码中。
当修改好Python脚本后,即可运行脚本,体验DataFlow舒适的数据治理功能:
python reasoning_pipeline.py
