Skip to content

WebCrawler Agent 详细指南

WebCrawlerAgent 是偏网页抓取方向的数据获取节点。

核心职责

  • 从网页或在线资源中抓取可用数据
  • 扩展 Obtainer 的外部数据来源

进入它之前通常要准备什么

通常要先想清楚:

  • 需要什么主题或网页内容
  • 外部资源访问是否可用
  • 抓取结果要如何落地和后处理

它的输入和输出可以怎么理解

输入通常是:

  • 抓取目标
  • 查询主题
  • 访问策略

输出通常是:

  • 抓取到的网页内容
  • 可继续进入 Constructor 的原始文本或样本

在闭环中的位置

WebCrawler 可以看成是 Obtainer 的一个外部数据扩展分支。

使用时最该关注什么

  • 来源是否可靠
  • 抓取内容是否相关
  • 是否需要强后处理来清洗内容

Built with VitePress for LoopAI