WebCrawler Agent 详细指南
WebCrawlerAgent 是偏网页抓取方向的数据获取节点。
核心职责
- 从网页或在线资源中抓取可用数据
- 扩展 Obtainer 的外部数据来源
进入它之前通常要准备什么
通常要先想清楚:
- 需要什么主题或网页内容
- 外部资源访问是否可用
- 抓取结果要如何落地和后处理
它的输入和输出可以怎么理解
输入通常是:
- 抓取目标
- 查询主题
- 访问策略
输出通常是:
- 抓取到的网页内容
- 可继续进入 Constructor 的原始文本或样本
在闭环中的位置
WebCrawler 可以看成是 Obtainer 的一个外部数据扩展分支。
使用时最该关注什么
- 来源是否可靠
- 抓取内容是否相关
- 是否需要强后处理来清洗内容