你的网站符合 AI 搜索标准吗?用 Crawlie 做免费开源 SEO + GEO 审计
周一早上,你刚发布了一篇技术博客,自信满满。一周后,Google Analytics 显示零自然流量,AI 聊天机器人(ChatGPT、Perplexity、Gemini)里提到你网站的次数也是零。你打开 Screaming Frog 跑了一遍 SEO 审计,发现断链 23 个、缺失 meta description 47 处、还有 12 个页面没有 h1 标签。更糟的是,你根本不知道自己的网站在 AI 搜索(GEO/生成式引擎优化)维度上表现如何——因为传统 SEO 工具压根不检查这个。
这就是越来越多开发者和站长面对的现实:现代网站需要同时通过两个考核——传统 SEO(面向搜索引擎爬虫)和 GEO(面向 AI 生成式引擎)。好消息是,一个刚发布的免费开源工具可以帮你一次性搞定两者。
为什么 SEO 和 GEO 都重要
先说 SEO。这是老生常谈了:断链影响用户体验、缺失 meta description 降低点击率、糟糕的页面结构让搜索引擎爬虫无法正确索引你的内容。这些问题的后果是可见的——排名下降、流量减少。
而 GEO(Generative Engine Optimization,生成式引擎优化)是个新概念。当用户问 ChatGPT「推荐一个免费的项目管理工具」,或者问 Perplexity「哪个开源爬虫最好用」时,AI 是从哪些来源获取信息的?如果你的网站没有被 AI 模型索引或引用,你就失去了这个快速增长的分发渠道。
GEO 的核心要求包括:
- llms.txt 文件:告诉 AI 爬虫你的网站有哪些核心页面、每个页面是干什么的(类似 robots.txt 的 AI 版本)
- 结构化数据:Schema.org 标记让 AI 更容易理解你的内容
- 清晰的内容层级:h1→h2→h3、简洁的段落、不藏关键信息
- 可验证的事实:引用来源、数据标注,让 AI 模型更信任你的内容
传统的 SEO 审计工具(Screaming Frog、Ahrefs、Semrush)在 GEO 维度上几乎帮不上忙。大部分要么是付费 SaaS,要么不支持 MCP 协议让 AI Agent 自动化操作。
手动检查的局限性
你可以手动做一些基础检查:
curl -s -o /dev/null -w "%{http_code}" https://example.com/broken-link
curl -s https://example.com | head -50 | grep -E '
但这些方法有几个问题:
- 无法批量处理——一个网站几十上百个页面,手工检查不现实
- 无统一报告——分散的数据很难形成可执行的修复清单
- 没有 GEO 检查——curl 命令不会告诉你 Schema.org 标记是否完整、AI 友好度如何
- 不能被 AI Agent 调用——手动操作的命令行无法集成到 CI/CD 或 Agent 工作流中
你需要一个能同时覆盖 SEO 和 GEO、自动生成报告、还支持 AI Agent 直接调用的工具。
用 Crawlie 一键搞定
这就是 Crawlie 的用武之地。它是一个用 Rust 编写的免费开源技术 SEO + GEO 爬虫,支持 CLI 和 MCP(Model Context Protocol)两种使用方式。装好之后,一条命令就能跑完完整的网站审计。
安装
npm i -g crawlie
一条命令即可。CLI 和 MCP 服务器都包含在这个 npm 包里,安装后 crawlie 和 crawlie-mcp 都已在 PATH 上。
如果不用 npm,也可以从源码构建(需要 Rust):
git clone https://github.com/spronta/crawlie
cd crawlie
cargo build --release
cargo install --path crates/crawlie-cli
cargo install --path crates/crawlie-mcp
基础用法:完整网站审计
crawlie crawl https://www.tinyash.com --format pretty
crawlie crawl https://example.com --max-pages 100 --format pretty
crawlie crawl https://example.com --format html -o report.html
每条 crawl 都会返回两个分数:
- Health 分数:传统技术 SEO 健康度(断链、重定向、meta 标签完整性、页面结构等)
- GEO 分数:AI 搜索就绪度(结构化数据、答案就绪度、E-E-A-T、内容可提取性等)
检查要点超过 40 项
Crawlie 默认检查 40+ 项,包括:
类别 检查项 SEO 基础 断链、4xx/5xx、规范 URL、重定向链、页面标题和 meta description 页面结构 H1 标签、图片 alt 属性、内容深度、重复/空洞内容 性能与安全 页面大小、加载时间、HTTPS、HSTS、混合内容 GEO/AI 就绪 结构化数据、语义HTML、答案就绪度、E-E-A/T、内容可提取性 移动端与社交 viewport、Open Graph、Twitter Cards、hreflang
查看具体问题的修复建议
crawlie explain geo-not-answerable
这个 explain 子命令对新手特别友好——它不只是告诉你"这里有问题",还会解释为什么这是个问题以及如何修复。
保存和回顾报告
crawlie crawl https://example.com --save
crawlie reports
crawlie report 1
让 AI Agent 也能做 SEO 审计(MCP 集成)
Crawlie 最特别的地方在于它原生支持 MCP(Model Context Protocol)。这意味着你的 AI 编程助手(Claude Code、Cursor、Cline 等)可以直接调用它来审计网站,无需人类操作。
配置方法也很简单。如果是 Claude Desktop:
{
"mcpServers": {
"crawlie": {
"command": "crawlie-mcp"
}
}
}
如果是 Claude Code:
claude mcp add crawlie crawlie-mcp
配置好之后,你只需要对 Claude Code 说一句「帮我审计一下 example.com 的 SEO 情况」,它就会自动调用 Crawlie 的 MCP 服务器,获取完整的审计结果,然后基于结果给你修复建议。
还能把 Crawlie 集成到 CI/CD 流程中:
crawlie crawl https://staging.example.com --fail-on error
与其他工具对比
维度 Crawlie Screaming Frog Ahrefs/Semrush 手动 curl 价格 免费开源 免费版有限 $99+/月 免费 SEO 检查 40+ 项 80+ 项 100+ 项 基本 GEO/AI 检查 ✅ 原生支持 ❌ ❌ ❌ MCP/Agent 集成 ✅ 原生 MCP ❌ ❌ ❌ 但可脚本化 CLI 支持 ✅ Rust CLI ❌ GUI ❌ Web ✅ Shell HTML 报告 ✅ 自包含 ✅ ✅ ❌ 本地运行 ✅ ✅ ❌ ✅ 多平台 macOS/Linux/Windows 全平台 SaaS 全平台
Crawlie 在检查项数量上不如成熟的商业工具,但它免费、开源、支持 GEO 和 MCP 这三点是独特优势。对于中小型站点和独立开发者来说,它的性价比无人能及。
最佳实践
- 在开发流程中就引入审计:在 CI/CD pipeline 中添加
crawlie crawl --fail-on error,防止问题代码被部署到生产环境 - 定期监控趋势:用
--save 保存历史报告,定期回顾 Health 和 GEO 分数的变化趋势 - 按严重级别依次修复:先处理 error(断链、缺失 canonical),再处理 warning(重复 title),最后处理 notice(图片缺 alt)
- 结合 Web Vitals 数据:Crawlie 关注技术 SEO 结构,结合 Google PageSpeed Insights 或 Lighthouse 的性能数据,能得到更完整的优化视角
- AI Agent 日常巡检:配置一个定时任务,让 Claude Code 每周自动 Crawlie 审计一次核心网站,把修复项生成 GitHub Issue
总结
Crawlie 填补了一个明显的空白:它是一款免费、开源、同时覆盖 SEO 和 GEO 的网站审计工具,而且原生支持 MCP,能让你的 AI Agent 直接参与网站质量监控。对于独立开发者、技术博客作者和小型团队来说,它是最低成本的网站健康检查方案。
工具虽新(发布于 2026 年 6 月,仅几天前),但架构扎实(Rust 核心、MIT 许可、40+ 检查项),社区已经在快速增长中。如果你的网站还没有做过完整的 SEO+GEO 审计——无论是手动还是让 AI Agent 代劳——现在是开始的好时机。
- GitHub: https://github.com/spronta/crawlie
- npm:
npm i -g crawlie - 官网: https://crawlie.dev