快速上手-dataflow init
591 字约 2 分钟
2025-06-30
代码生成的运行方式
DataFlow 采用代码生成 + 自定义修改 + 运行脚本的使用方式,类似 create-react-app/vue-cli。即通过命令行调用,自动生成默认的运行脚本和入口Python文件,经过用户定制化修改后(比如更换数据集,使用不同的大模型API,重新排列算子),运行该Python文件以执行相应功能。
你只需要三步即可跑起我们提供的SoTA Pipeline。
1. 初始化项目
在一个空目录中执行:
dataflow init即会在当前工作路径生成这些文件夹:
$ tree -L 1
.
|-- api_pipelines
|-- core_text
|-- cpu_pipelines
|-- example_data
|-- gpu_pipelines
|-- playground
`-- simple_text_pipelines各目录用途:
cpu_pipelines:仅使用 CPU 的 Pipelinecore_text: DataFlow最基础的几个算子的样例api_pipelines:使用在线大模型 API(推荐新手)gpu_pipelines:使用本地 GPU 模型example_data:所有示例 Pipeline 的默认输入数据playground:轻量示例,不构成完整 Pipelinesimple_text_pipelines:
2. Pipeline 分类说明(选一个就好)
同名 Pipeline 在不同目录下是包含关系:
| 目录 | 依赖资源 |
|---|---|
cpu_pipelines | 仅 CPU |
api_pipelines | CPU + 大模型 API |
gpu_pipelines | CPU + API + 本地 GPU |
新手推荐:直接从
api_pipelines开始
后续如果你有 GPU,只需要把 LLMServing 换成本地模型即可。
3. 运行你的第一个预制菜Pipeline
进入任意 Pipeline 目录,例如:
cd api_pipelines打开其中的 Python 文件,你通常只需要关注两处配置:
(1)输入数据路径
self.storage = FileStorage(
first_entry_file_name="<path_to_dataset>"
)这里默认指向了我们提供的样例数据集,可以直接运行,你可以把它改成你自己的数据集路径来推理自己的数据。
(2)大模型 Serving
如果使用 API,需要先设置环境变量:
Linux / macOS
export DF_API_KEY=sk-xxxxxWindows CMD
set DF_API_KEY=sk-xxxxxPowerShell
$env:DF_API_KEY="sk-xxxxx"然后直接运行脚本即可:
python xxx_pipeline.py4. 多 API Serving(可选)
如果你需要同时使用多个大模型 API,可以为每个 Serving 指定不同的环境变量名:
llm_serving_openai = APILLMServing_request(
api_url="https://api.openai.com/v1/chat/completions",
key_name_of_api_key="OPENAI_API_KEY",
model_name="gpt-4o"
)
llm_serving_deepseek = APILLMServing_request(
api_url="https://api.deepseek.com/v1/chat/completions",
key_name_of_api_key="DEEPSEEK_API_KEY",
model_name="deepseek-chat"
)然后在环境变量里输出对应的字段名(比如 OPENAI_API_KEY=sk-xxxxx)即可实现多API Serving共存。

