WebCrawler Agent 详细指南
WebCrawlerAgent 是偏网页抓取方向的数据获取节点,可以看作 Obtainer 在开放网页场景下的补充与扩展。
核心职责
- 从网页或在线资源中抓取可用数据
- 扩展
Obtainer的外部数据来源
进入它之前通常要准备什么
通常需要先想清楚以下几件事:
- 需要什么主题或网页内容
- 外部资源访问是否可用
- 抓取结果要如何落地和后处理
它的输入和输出可以怎么理解
输入通常包括:
- 抓取目标
- 查询主题
- 访问策略
输出通常包括:
- 抓取到的网页内容
- 可继续进入
Constructor的原始文本或样本
在闭环中的位置
WebCrawler 可以看作 Obtainer 的一个外部数据扩展分支。
在闭环中,它通常处于:
text
Analyzer -> Obtainer / WebCrawler -> Constructor -> Trainer当已有数据源不足,或者需要从公开网页补充信息时,WebCrawler 就会发挥作用。
使用时最该关注什么
- 来源是否可靠
- 抓取内容是否相关
- 是否需要较强的后处理来清洗内容
- 站点访问限制是否会影响抓取
- 抓取结果是否便于后续格式化和训练使用