存储模块
1880 字约 6 分钟
2025-06-12
Dataflow 的存储系统以 DataFlowStorage 抽象基类为核心,将存储层与算法、数据流控制等逻辑完全解耦。用户只需继承 DataFlowStorage 并实现 read、write 接口,就能无缝接入自定义文件系统、对象存储或数据库等后端,无需改动现有算子和流程代码。
class DataFlowStorage(ABC):
"""
Abstract base class for data storage.
"""
@abstractmethod
def read(self, output_type) -> Any:
"""
Read data from file.
type: type that you want to read to, such as "datatrame", List[dict], etc.
"""
pass
@abstractmethod
def write(self, data: Any) -> Any:
pass
我们在DataFlow系统中内置了 FileStorage 默认实现,支持本地文件系统下常见的 JSON/JSONL、CSV、Parquet、Pickle 等格式读写,帮助用户快速上手并满足大多数场景需求。