Crawlie 实战:让 AI Agent 自动做 SEO + GEO 网站审计
场景
周五下午,你刚用 Claude Code 配合 Cursor 快速搭建了一个产品落地页,用了最新的 Tailwind 组件和动画效果。页面看着不错,功能也跑通了,但你想在发布前确认一件事:搜索引擎和 AI 搜索引擎(如 ChatGPT、Perplexity、Google AI Overview)能不能正确理解和索引这个页面?
传统的做法是打开 Screaming Frog 或 Sitebulb——但这些都是商业工具,需要许可证,而且跑起来很重(Screaming Frog 基于 Java,Sitebulb 基于 .NET)。更关键的是,它们不支持 Agent 自动化:你没法让 AI 写完代码后顺便跑一把 SEO 审计。
现在有一款开源免费的工具可以做到:Crawlie——一个用 Rust 构建的 SEO + GEO(Generative Engine Optimization)爬虫审计工具,内置 MCP 服务器,AI Agent 可以直接调用。
一秒上手
Crawlie 的核心引擎用 Rust 编写,打包为 npm 包分发:
npm i -g @spronta/crawlie
安装后你同时获得两个命令:crawlie(CLI 审计工具)和 crawlie-mcp(MCP 服务器)。二进制体积很小,没有 JVM 或 .NET 运行时依赖。
对单个页面做快速审计:
crawlie audit https://example.com
对全站做完整爬取:
crawlie crawl https://example.com --format pretty
每个爬取会话会返回两个分数:Health Score(传统技术 SEO 健康度)和 GEO Score(AI 搜索引擎就绪度)。
让 AI Agent 自动做审计
Crawlie 的真正亮点在于它的 MCP 服务器。安装后只需一行命令即可接入 Claude Code:
claude mcp add crawlie crawlie-mcp
接入后,AI Agent 获得 6 个新的工具:
| 工具 | 功能 |
|---|---|
crawl_site | 爬取全站并做 SEO + GEO 审计,返回评分和问题列表 |
audit_url | 审计单个页面 |
audit_urls | 审计一组指定页面 |
explain_issue | 解释某个规则为什么重要以及如何修复 |
list_rules | 列出全部 46 条检查规则 |
list_reports / get_report | 读取爬取历史 |
实战一:发布前全站体检
想象你刚用 Agent 写完一个营销站点。你可以直接对 Claude Code 说:
“Crawl spronta.com, then give me the top 5 fixes that would most improve my GEO score, with the exact change for each.”
Agent 会自动调用 crawl_site 进行全站爬取,然后读取结果,用 explain_issue 逐条理解问题,最后给出一个优先级排序的修复清单——从结构化数据缺失到标题长度超标,全部带有具体的修改方案。
实战二:CI/CD 门禁
Crawlie 的 CLI 支持 --fail-on 参数,可以阻断有严重 SEO 问题的构建:
crawlie crawl https://staging.example.com --fail-on error
如果爬取发现任何错误级别的 SEO 问题(如 404 链接、缺失 meta description、HSTS 未启用),命令会以非零退出码返回,CI 流程据此拒绝部署。
实战三:AI Agent 自动修复 SEO 问题
结合 MCP 服务器和 Claude Code 的文件编辑能力,你可以构建一个完整的审计→修复流水线:
- Agent 调用
crawl_site获取问题列表 - 调用
explain_issue了解每条规则的修复方法 - Agent 自动编辑 HTML 文件修复问题(补充 structured data、修正标题、添加 alt 文本)
- 再次调用
crawl_site验证修复效果
46 条规则,覆盖 SEO + GEO
Crawlie 目前内置了 46 条检查规则,分为几个大类:
技术 SEO:死链检测、4xx/5xx 状态码、重定向链、标题和 meta description 检查(缺失/重复/长度)、H1 标签、canonical 链接、noindex/nofollow 标记、robots.txt 拦截、图片缺 alt、内容过薄与重复、孤页与深度页。
性能与安全:响应缓慢、页面过大、缺少压缩、HTTPS 未启用、混合内容、HSTS 缺失。
移动端与国际社交:viewport 设置、lang 属性、hreflang、Open Graph、Twitter Cards、结构化数据。
GEO(Generative Engine Optimization):结构化数据完整性、语义 HTML 质量、内容可回答性、作者归属/E-E-A-T 信号、内容时效性标识、问题式标题、可提取的摘要块——最终汇总为一个逐页的 GEO 分数。
与其他工具对比
| 维度 | Crawlie | Screaming Frog | Sitebulb |
|---|---|---|---|
| 价格 | 免费开源 | £259/年 | 从 £13.50/月起 |
| 引擎 | Rust,异步,小体积 | Java(JVM) | .NET |
| CLI + JSON 输出 | ✅ | 部分 | ❌ |
| MCP 服务器(Agent 原生) | ✅ | ❌ | ❌ |
| GEO/AI 搜索引擎审计 | ✅ | ❌ | ❌ |
| 桌面应用 | Tauri(macOS) | 有 | 有 |
与商业工具相比,Crawlie 的最大优势不是功能多——它在检查项数量上确实不如 Screaming Frog 的数百条规则——而是 Agent 原生。MCP 服务器意味着 AI Agent 可以直接调用、解析结果并采取行动,无需人工打开 GUI 导出 CSV。
注意事项
- Crawlie 的 Rust 引擎通过 npm 发布为平台原生二进制包,安装时会自动下载对应架构的版本(无需手动选择)
crawlie-mcpMCP 服务器兼容所有 MCP 客户端(Claude Desktop、Cursor、Cline、自定义 Agent)- 每次爬取默认限制 500 页,可通过
--max-pages调整 - GEO 分数目前还是相对较新的概念,不要将其作为唯一指标——结合传统 SEO 工具的结果做综合判断更有价值
- 桌面应用(Tauri + React)需要单独编译或从 Releases 页面下载
总结
Crawlie 解决了一个真实且普遍的痛点:网站做好了,但 SEO 和 AI 搜索引擎的适配度无从知晓——尤其是在 Agent 自动构建网站的场景下。它的 46 条规则覆盖了从传统技术 SEO 到新兴 GEO 的完整维度,而 MCP 服务器让 AI Agent 可以端到端地完成审计、分析和修复,无需人工介入。
对于用 AI 写站越来越频繁的今天,在 CI/CD 流程中加一个 Crawlie 检查,可能比在最后关头手动跑 Screaming Frog 高效得多。