2026年6月21日 1 分钟阅读

你的网站符合 AI 搜索标准吗?用 Crawlie 做免费开源 SEO + GEO 审计

tinyash 0 条评论

周一早上,你刚发布了一篇技术博客,自信满满。一周后,Google Analytics 显示零自然流量,AI 聊天机器人(ChatGPT、Perplexity、Gemini)里提到你网站的次数也是零。你打开 Screaming Frog 跑了一遍 SEO 审计,发现断链 23 个、缺失 meta description 47 处、还有 12 个页面没有 h1 标签。更糟的是,你根本不知道自己的网站在 AI 搜索(GEO/生成式引擎优化)维度上表现如何——因为传统 SEO 工具压根不检查这个。

这就是越来越多开发者和站长面对的现实:现代网站需要同时通过两个考核——传统 SEO(面向搜索引擎爬虫)和 GEO(面向 AI 生成式引擎)。好消息是,一个刚发布的免费开源工具可以帮你一次性搞定两者。

为什么 SEO 和 GEO 都重要

先说 SEO。这是老生常谈了:断链影响用户体验、缺失 meta description 降低点击率、糟糕的页面结构让搜索引擎爬虫无法正确索引你的内容。这些问题的后果是可见的——排名下降、流量减少。

而 GEO(Generative Engine Optimization,生成式引擎优化)是个新概念。当用户问 ChatGPT「推荐一个免费的项目管理工具」,或者问 Perplexity「哪个开源爬虫最好用」时,AI 是从哪些来源获取信息的?如果你的网站没有被 AI 模型索引或引用,你就失去了这个快速增长的分发渠道。

GEO 的核心要求包括:

  • llms.txt 文件:告诉 AI 爬虫你的网站有哪些核心页面、每个页面是干什么的(类似 robots.txt 的 AI 版本)
  • 结构化数据:Schema.org 标记让 AI 更容易理解你的内容
  • 清晰的内容层级:h1→h2→h3、简洁的段落、不藏关键信息
  • 可验证的事实:引用来源、数据标注,让 AI 模型更信任你的内容

传统的 SEO 审计工具(Screaming Frog、Ahrefs、Semrush)在 GEO 维度上几乎帮不上忙。大部分要么是付费 SaaS,要么不支持 MCP 协议让 AI Agent 自动化操作。

手动检查的局限性

你可以手动做一些基础检查:

curl -s -o /dev/null -w "%{http_code}" https://example.com/broken-link

curl -s https://example.com | head -50 | grep -E '

但这些方法有几个问题:

  1. 无法批量处理——一个网站几十上百个页面,手工检查不现实
  2. 无统一报告——分散的数据很难形成可执行的修复清单
  3. 没有 GEO 检查——curl 命令不会告诉你 Schema.org 标记是否完整、AI 友好度如何
  4. 不能被 AI Agent 调用——手动操作的命令行无法集成到 CI/CD 或 Agent 工作流中

你需要一个能同时覆盖 SEO 和 GEO、自动生成报告、还支持 AI Agent 直接调用的工具。

用 Crawlie 一键搞定

这就是 Crawlie 的用武之地。它是一个用 Rust 编写的免费开源技术 SEO + GEO 爬虫,支持 CLI 和 MCP(Model Context Protocol)两种使用方式。装好之后,一条命令就能跑完完整的网站审计。

安装

npm i -g crawlie

一条命令即可。CLI 和 MCP 服务器都包含在这个 npm 包里,安装后 crawliecrawlie-mcp 都已在 PATH 上。

如果不用 npm,也可以从源码构建(需要 Rust):

git clone https://github.com/spronta/crawlie
cd crawlie
cargo build --release
cargo install --path crates/crawlie-cli
cargo install --path crates/crawlie-mcp

基础用法:完整网站审计

crawlie crawl https://www.tinyash.com --format pretty

crawlie crawl https://example.com --max-pages 100 --format pretty

crawlie crawl https://example.com --format html -o report.html

每条 crawl 都会返回两个分数:

  • Health 分数:传统技术 SEO 健康度(断链、重定向、meta 标签完整性、页面结构等)
  • GEO 分数:AI 搜索就绪度(结构化数据、答案就绪度、E-E-A-T、内容可提取性等)

检查要点超过 40 项

Crawlie 默认检查 40+ 项,包括:

类别检查项
SEO 基础断链、4xx/5xx、规范 URL、重定向链、页面标题和 meta description
页面结构H1 标签、图片 alt 属性、内容深度、重复/空洞内容
性能与安全页面大小、加载时间、HTTPS、HSTS、混合内容
GEO/AI 就绪结构化数据、语义HTML、答案就绪度、E-E-A/T、内容可提取性
移动端与社交viewport、Open Graph、Twitter Cards、hreflang

查看具体问题的修复建议

crawlie explain geo-not-answerable

这个 explain 子命令对新手特别友好——它不只是告诉你"这里有问题",还会解释为什么这是个问题以及如何修复。

保存和回顾报告

crawlie crawl https://example.com --save

crawlie reports

crawlie report 1

让 AI Agent 也能做 SEO 审计(MCP 集成)

Crawlie 最特别的地方在于它原生支持 MCP(Model Context Protocol)。这意味着你的 AI 编程助手(Claude Code、Cursor、Cline 等)可以直接调用它来审计网站,无需人类操作。

配置方法也很简单。如果是 Claude Desktop:

{
  "mcpServers": {
    "crawlie": {
      "command": "crawlie-mcp"
    }
  }
}

如果是 Claude Code:

claude mcp add crawlie crawlie-mcp

配置好之后,你只需要对 Claude Code 说一句「帮我审计一下 example.com 的 SEO 情况」,它就会自动调用 Crawlie 的 MCP 服务器,获取完整的审计结果,然后基于结果给你修复建议。

还能把 Crawlie 集成到 CI/CD 流程中:

crawlie crawl https://staging.example.com --fail-on error

与其他工具对比

维度CrawlieScreaming FrogAhrefs/Semrush手动 curl
价格免费开源免费版有限$99+/月免费
SEO 检查40+ 项80+ 项100+ 项基本
GEO/AI 检查✅ 原生支持
MCP/Agent 集成✅ 原生 MCP❌ 但可脚本化
CLI 支持✅ Rust CLI❌ GUI❌ Web✅ Shell
HTML 报告✅ 自包含
本地运行
多平台macOS/Linux/Windows全平台SaaS全平台

Crawlie 在检查项数量上不如成熟的商业工具,但它免费、开源、支持 GEO 和 MCP 这三点是独特优势。对于中小型站点和独立开发者来说,它的性价比无人能及。

最佳实践

  1. 在开发流程中就引入审计:在 CI/CD pipeline 中添加 crawlie crawl --fail-on error,防止问题代码被部署到生产环境
  2. 定期监控趋势:用 --save 保存历史报告,定期回顾 Health 和 GEO 分数的变化趋势
  3. 按严重级别依次修复:先处理 error(断链、缺失 canonical),再处理 warning(重复 title),最后处理 notice(图片缺 alt)
  4. 结合 Web Vitals 数据:Crawlie 关注技术 SEO 结构,结合 Google PageSpeed Insights 或 Lighthouse 的性能数据,能得到更完整的优化视角
  5. AI Agent 日常巡检:配置一个定时任务,让 Claude Code 每周自动 Crawlie 审计一次核心网站,把修复项生成 GitHub Issue

总结

Crawlie 填补了一个明显的空白:它是一款免费、开源、同时覆盖 SEO 和 GEO 的网站审计工具,而且原生支持 MCP,能让你的 AI Agent 直接参与网站质量监控。对于独立开发者、技术博客作者和小型团队来说,它是最低成本的网站健康检查方案。

工具虽新(发布于 2026 年 6 月,仅几天前),但架构扎实(Rust 核心、MIT 许可、40+ 检查项),社区已经在快速增长中。如果你的网站还没有做过完整的 SEO+GEO 审计——无论是手动还是让 AI Agent 代劳——现在是开始的好时机。

  • GitHub: https://github.com/spronta/crawlie
  • npm: npm i -g crawlie
  • 官网: https://crawlie.dev

发表评论

你的邮箱地址不会被公开,带 * 的为必填项。