CodeAutoGeneratedFilter
305 字约 1 分钟
2025-10-09
📘 概述 [CodeAutoGeneratedFilter]
CodeAutoGeneratedFilter 是一个代码过滤算子,它利用 CodeAutoGeneratedSampleEvaluator 的评分机制,来筛选掉自动生成的代码文件,从而确保数据集中只保留人工编写的代码。
__init__函数
def __init__(self, min_score: float = 1.0, max_score: float = 1.0, is_generated_func: Optional[Callable[[], bool]] = None)init参数说明
| 参数名 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| min_score | float | 1.0 | 最小自动生成得分阈值。 |
| max_score | float | 1.0 | 最大自动生成得分阈值。 |
| is_generated_func | Callable | None | 可选的外部检测函数,用于额外的验证。 |
Prompt模板说明
run函数
def run(self, storage: DataFlowStorage, input_key: str, output_key: str = "auto_generated_filter_label")参数
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| storage | DataFlowStorage | 必需 | 数据流存储实例,负责读取与写入数据。 |
| input_key | str | 必需 | 输入列名,该列应包含代码内容。 |
| output_key | str | "auto_generated_filter_label" | 输出标签的列名。 |
🧠 示例用法
🧾 默认输出格式(Output Format)
该算子会处理存储中的 DataFrame,并将其过滤后写回。输出的 DataFrame 将只包含自动生成得分在 min_score 和 max_score 范围内的行。同时,DataFrame 中会增加一个新的列(列名由 output_key 指定),其值为 1 表示该行数据通过了过滤。

