Skip to content

WebCrawler Agent 详细指南

WebCrawlerAgent 是偏网页抓取方向的数据获取节点,可以看作 Obtainer 在开放网页场景下的补充与扩展。

核心职责

  • 从网页或在线资源中抓取可用数据
  • 扩展 Obtainer 的外部数据来源

进入它之前通常要准备什么

通常需要先想清楚以下几件事:

  • 需要什么主题或网页内容
  • 外部资源访问是否可用
  • 抓取结果要如何落地和后处理

它的输入和输出可以怎么理解

输入通常包括:

  • 抓取目标
  • 查询主题
  • 访问策略

输出通常包括:

  • 抓取到的网页内容
  • 可继续进入 Constructor 的原始文本或样本

在闭环中的位置

WebCrawler 可以看作 Obtainer 的一个外部数据扩展分支。

在闭环中,它通常处于:

text
Analyzer -> Obtainer / WebCrawler -> Constructor -> Trainer

当已有数据源不足,或者需要从公开网页补充信息时,WebCrawler 就会发挥作用。

使用时最该关注什么

  • 来源是否可靠
  • 抓取内容是否相关
  • 是否需要较强的后处理来清洗内容
  • 站点访问限制是否会影响抓取
  • 抓取结果是否便于后续格式化和训练使用

Built with VitePress for LoopAI