简介

644 字约 2 分钟

2025-06-13

近年来，大模型的发展在很大程度上依赖于大规模、高质量的训练数据。然而，目前主流的训练数据及其处理流程多未公开，公开数据资源的规模和质量仍有限，给社区在构建和优化大模型训练数据的过程中带来不小挑战。

尽管已有如 Open-DataLab 等组织推动数据集的开源，数据准备仍然是一个高度依赖手工和分散实现的过程。现阶段，不同团队往往需要各自构建清洗与构造流程，缺乏统一、系统化的工具支持。已有数据处理工具（如Hadoop和Spark）大多以传统方法为核心，尚未有效集成基于大语言模型（LLMs）的智能算子，对于高效构建适用于大模型训练的数据支持仍显不足。

为此，我们提出了 DataFlow——一个由先进算子（Operators）与多阶段数据处理 Pipeline 组成的高效数据准备系统。DataFlow 充分结合了规则方法、深度学习模型和大语言模型的能力，提供了可扩展、可重组的模块化设计，旨在提升数据清洗、增强与构建的质量与效率，助力下一代大模型的发展。

DataFlow：一个高质量数据准备系统

DataFlow 是一个用于数据评估与处理的系统，旨在对嘈杂的数据源（如 PDF 文档、纯文本、低质量问答数据）进行 清洗、增强与评估 以得到高质量的训练数据。得到高质量数据我们可以通过有针对性的训练（包括预训练、有监督微调、强化学习训练）提升大语言模型在通用领域（推理能力和检索能力）与特定领域（如医疗、金融、法律等）的性能。

具体而言，我们构建了一系列多样化的算子（Operator），这些算子基于规则方法、深度学习模型、大语言模型（LLMs）以及 LLM API 开发而成。我们将这些算子系统性地整合进六条独立的数据处理流水线（Pipeline）中，构成了完整的 DataFlow 系统。

此外，我们还开发了一个智能的Dataflow-Agent，能够根据需求动态组合已有的算子，自动构建新的数据处理流程，从而实现更灵活、高效的数据构建与处理能力。

generate

eval

filter

refine

generate

eval

filter

generate

eval

filter

generaterow

refine

简介

DataFlow：一个高质量数据准备系统