简介
644 字约 2 分钟
2025-06-13
近年来,大模型的发展在很大程度上依赖于大规模、高质量的训练数据。然而,目前主流的训练数据及其处理流程多未公开,公开数据资源的规模和质量仍有限,给社区在构建和优化大模型训练数据的过程中带来不小挑战。
尽管已有如 Open-DataLab 等组织推动数据集的开源,数据准备仍然是一个高度依赖手工和分散实现的过程。现阶段,不同团队往往需要各自构建清洗与构造流程,缺乏统一、系统化的工具支持。已有数据处理工具(如Hadoop和Spark)大多以传统方法为核心,尚未有效集成基于大语言模型(LLMs)的智能算子,对于高效构建适用于大模型训练的数据支持仍显不足。
为此,我们提出了 DataFlow——一个由先进算子(Operators)与多阶段数据处理 Pipeline 组成的高效数据准备系统。DataFlow 充分结合了规则方法、深度学习模型和大语言模型的能力,提供了可扩展、可重组的模块化设计,旨在提升数据清洗、增强与构建的质量与效率,助力下一代大模型的发展。
DataFlow:一个高质量数据准备系统
DataFlow 是一个用于数据评估与处理的系统,旨在对嘈杂的数据源(如 PDF 文档、纯文本、低质量问答数据)进行 清洗、增强与评估 以得到高质量的训练数据。得到高质量数据我们可以通过有针对性的训练(包括预训练、有监督微调、强化学习训练)提升大语言模型在通用领域(推理能力和检索能力)与特定领域(如医疗、金融、法律等)的性能。
具体而言,我们构建了一系列多样化的算子(Operator),这些算子基于规则方法、深度学习模型、大语言模型(LLMs)以及 LLM API 开发而成。我们将这些算子系统性地整合进六条独立的数据处理流水线(Pipeline)中,构成了完整的 DataFlow 系统。
此外,我们还开发了一个智能的Dataflow-Agent,能够根据需求动态组合已有的算子,自动构建新的数据处理流程,从而实现更灵活、高效的数据构建与处理能力。

