2026年6月19日 2 分钟阅读

Crawlie 实战:让 AI Agent 自动做 SEO + GEO 网站审计

tinyash 0 条评论

场景

周五下午,你刚用 Claude Code 配合 Cursor 快速搭建了一个产品落地页,用了最新的 Tailwind 组件和动画效果。页面看着不错,功能也跑通了,但你想在发布前确认一件事:搜索引擎和 AI 搜索引擎(如 ChatGPT、Perplexity、Google AI Overview)能不能正确理解和索引这个页面?

传统的做法是打开 Screaming Frog 或 Sitebulb——但这些都是商业工具,需要许可证,而且跑起来很重(Screaming Frog 基于 Java,Sitebulb 基于 .NET)。更关键的是,它们不支持 Agent 自动化:你没法让 AI 写完代码后顺便跑一把 SEO 审计。

现在有一款开源免费的工具可以做到:Crawlie——一个用 Rust 构建的 SEO + GEO(Generative Engine Optimization)爬虫审计工具,内置 MCP 服务器,AI Agent 可以直接调用。

一秒上手

Crawlie 的核心引擎用 Rust 编写,打包为 npm 包分发:

npm i -g @spronta/crawlie

安装后你同时获得两个命令:crawlie(CLI 审计工具)和 crawlie-mcp(MCP 服务器)。二进制体积很小,没有 JVM 或 .NET 运行时依赖。

对单个页面做快速审计:

crawlie audit https://example.com

对全站做完整爬取:

crawlie crawl https://example.com --format pretty

每个爬取会话会返回两个分数:Health Score(传统技术 SEO 健康度)和 GEO Score(AI 搜索引擎就绪度)。

让 AI Agent 自动做审计

Crawlie 的真正亮点在于它的 MCP 服务器。安装后只需一行命令即可接入 Claude Code:

claude mcp add crawlie crawlie-mcp

接入后,AI Agent 获得 6 个新的工具:

工具功能
crawl_site爬取全站并做 SEO + GEO 审计,返回评分和问题列表
audit_url审计单个页面
audit_urls审计一组指定页面
explain_issue解释某个规则为什么重要以及如何修复
list_rules列出全部 46 条检查规则
list_reports / get_report读取爬取历史

实战一:发布前全站体检

想象你刚用 Agent 写完一个营销站点。你可以直接对 Claude Code 说:

“Crawl spronta.com, then give me the top 5 fixes that would most improve my GEO score, with the exact change for each.”

Agent 会自动调用 crawl_site 进行全站爬取,然后读取结果,用 explain_issue 逐条理解问题,最后给出一个优先级排序的修复清单——从结构化数据缺失到标题长度超标,全部带有具体的修改方案。

实战二:CI/CD 门禁

Crawlie 的 CLI 支持 --fail-on 参数,可以阻断有严重 SEO 问题的构建:

crawlie crawl https://staging.example.com --fail-on error

如果爬取发现任何错误级别的 SEO 问题(如 404 链接、缺失 meta description、HSTS 未启用),命令会以非零退出码返回,CI 流程据此拒绝部署。

实战三:AI Agent 自动修复 SEO 问题

结合 MCP 服务器和 Claude Code 的文件编辑能力,你可以构建一个完整的审计→修复流水线:

  1. Agent 调用 crawl_site 获取问题列表
  2. 调用 explain_issue 了解每条规则的修复方法
  3. Agent 自动编辑 HTML 文件修复问题(补充 structured data、修正标题、添加 alt 文本)
  4. 再次调用 crawl_site 验证修复效果

46 条规则,覆盖 SEO + GEO

Crawlie 目前内置了 46 条检查规则,分为几个大类:

技术 SEO:死链检测、4xx/5xx 状态码、重定向链、标题和 meta description 检查(缺失/重复/长度)、H1 标签、canonical 链接、noindex/nofollow 标记、robots.txt 拦截、图片缺 alt、内容过薄与重复、孤页与深度页。

性能与安全:响应缓慢、页面过大、缺少压缩、HTTPS 未启用、混合内容、HSTS 缺失。

移动端与国际社交:viewport 设置、lang 属性、hreflang、Open Graph、Twitter Cards、结构化数据。

GEO(Generative Engine Optimization):结构化数据完整性、语义 HTML 质量、内容可回答性、作者归属/E-E-A-T 信号、内容时效性标识、问题式标题、可提取的摘要块——最终汇总为一个逐页的 GEO 分数

与其他工具对比

维度CrawlieScreaming FrogSitebulb
价格免费开源£259/年从 £13.50/月起
引擎Rust,异步,小体积Java(JVM).NET
CLI + JSON 输出部分
MCP 服务器(Agent 原生)
GEO/AI 搜索引擎审计
桌面应用Tauri(macOS)

与商业工具相比,Crawlie 的最大优势不是功能多——它在检查项数量上确实不如 Screaming Frog 的数百条规则——而是 Agent 原生。MCP 服务器意味着 AI Agent 可以直接调用、解析结果并采取行动,无需人工打开 GUI 导出 CSV。

注意事项

  • Crawlie 的 Rust 引擎通过 npm 发布为平台原生二进制包,安装时会自动下载对应架构的版本(无需手动选择)
  • crawlie-mcp MCP 服务器兼容所有 MCP 客户端(Claude Desktop、Cursor、Cline、自定义 Agent)
  • 每次爬取默认限制 500 页,可通过 --max-pages 调整
  • GEO 分数目前还是相对较新的概念,不要将其作为唯一指标——结合传统 SEO 工具的结果做综合判断更有价值
  • 桌面应用(Tauri + React)需要单独编译或从 Releases 页面下载

总结

Crawlie 解决了一个真实且普遍的痛点:网站做好了,但 SEO 和 AI 搜索引擎的适配度无从知晓——尤其是在 Agent 自动构建网站的场景下。它的 46 条规则覆盖了从传统技术 SEO 到新兴 GEO 的完整维度,而 MCP 服务器让 AI Agent 可以端到端地完成审计、分析和修复,无需人工介入。

对于用 AI 写站越来越频繁的今天,在 CI/CD 流程中加一个 Crawlie 检查,可能比在最后关头手动跑 Screaming Frog 高效得多。

发表评论

你的邮箱地址不会被公开,带 * 的为必填项。