Weave Router 实战:用智能模型路由给 AI 编程工具省一半 API 费用
用 Claude Code 写代码很爽,但月底看到 API 账单就不那么爽了。如果每次对话都能把简单的任务路由到便宜模型、复杂的才上 Claude Sonnet,是不是能省一大笔钱?
这就是 Weave Router 解决的问题——一个轻量级的智能模型路由,夹在你的 AI 编程工具(Claude Code、OpenAI Codex、Cursor、opencode)和 LLM API 之间,实时决定每个请求的最佳模型。
为什么需要模型路由?
先看一个典型的开发场景。你在终端里跑 Claude Code,一小时内可能有这么几种对话:
- 问一个 TypeScript 类型问题——GPT-4o-mini 完全能答,但默认走 Claude Sonnet
- 生成一个 CRUD API 路由——需要较强的编码能力,Sonnet 或 DeepSeek 合适
- 调试一个复杂的 async 死锁——需要很强的推理能力,值得用最好的模型
- 请求代码格式化建议——一个便宜的小模型就够了
如果没有路由,所有请求都走同一个高端模型,很多低复杂度请求属于”杀鸡用牛刀”。Weave Router 就是用机器学习自动做这个判断:每次请求进来,50 毫秒内算出哪个模型性价比最高。
30 秒快速体验
安装过程比你想象的简单。只要一行命令:
npx @workweave/router
执行后,交互式安装程序会问你三个问题:
- 你用什么工具? Claude Code、Codex、还是 opencode
- 作用范围? 当前项目(per-repo)还是全局用户
- 路由器模式? 托管模式(免费)还是自托管
选完后安装程序自动配置好对应的配置文件(Claude Code 的 claude_settings.json、Codex 的 config.toml 等),不需要手动改任何东西。
安装后,当你运行 claude 或 codex 时,请求就自动经过 Weave Router 了。
自托管方案
如果你希望数据完全不出自己的服务器,可以走自托管路线:
echo "OPENROUTER_API_KEY=sk-or-xxx..." >> .env.local make full-setup
默认在 localhost:8080 启动。然后可以手动测试:
curl -sS http://localhost:8080/v1/messages \
-H "Authorization: Bearer rk_xxx" \
-d '{"model":"claude-sonnet-4-5","max_tokens":256,
"messages":[{"role":"user","content":"写一个 Go 并发队列"}]}'
curl -sS http://localhost:8080/v1/chat/completions \
-H "Authorization: Bearer rk_xxx" \
-d '{"model":"gpt-4o-mini",
"messages":[{"role":"user","content":"hi"}]}'
自托管模式下,你还能访问本地仪表盘:http://localhost:8080/ui/,查看每次请求的路由决策、延迟和成本统计。
支持的模型生态
Weave Router 不是只绑一家。它原生支持三个主流 API 协议:
| 协议 | 端点 |
|---|---|
| Anthropic Messages | POST /v1/messages |
| OpenAI Chat Completions | POST /v1/chat/completions |
| Gemini native | POST /v1beta/models/:action |
通过 OpenRouter,还能访问 DeepSeek、Kimi、GLM、Qwen、Llama、Mistral 等开源模型。这意味着它的”模型池”非常灵活:一个请求可能路由到 Claude Sonnet,下一个可能到 GPT-4o-mini,再到 DeepSeek-V3——完全取决于任务复杂度。
路由决策基于 Avengers-Pro 论文衍生的聚类评分器,在 RouterArena 排行榜上排名第一(Acc-Cost Arena 76.09 分)。
Cursor 用户也别担心
虽然 Cursor 集成还在早期 beta 阶段,但配置非常简单:在 Cursor Settings → Models → Override OpenAI Base URL 里填入 http://localhost:8080/v1,API Key 填你的 rk_... 密钥即可。
按需开关路由
有时候你就是想让 Claude Code 直接走官方 API 不用路由——比如跑 CI 时不想引入额外依赖。Weave Router 提供了便捷的开关:
npx @workweave/router off --claude # 临时关闭路由,直连 API npx @workweave/router on --claude # 重新开启 npx @workweave/router status # 查看当前状态
Claude Code 里还内置了 /router-off、/router-on、/router-status 三个斜杠命令,不用退出终端就能切换。
成本到底能省多少?
根据官方数据,智能路由可以降低 40-70% 的 API 费用。这个数字的来源很直接:
- 开发中的大部分对话是简单问题(类型检查、文档查询、小段代码生成)
- 这些请求被自动路由到 GPT-4o-mini、DeepSeek 等便宜模型
- 只有需要深度推理的请求才走高端模型
- 每个请求的延迟增加不到 50ms,基本无感
以一个每天使用 Claude Code 6-8 小时的开发者为例,每月 API 费用从 $200 降到 $80-120 是很常见的。
几个实践建议
- 先用托管模式试水:
npx @workweave/router一行命令搞定,零风险试用 - 观察一段时间:通过仪表盘看路由决策分布,了解你的工作模式
- 自托管时注意密钥管理:上游密钥放在
.env.local,路由器密钥是rk_...,两者不要搞混
Weave Router 的价值不在于它多复杂,而在于它解决了一个很现实的痛点——AI 编程工具好用但太贵,而大多数”简单”的请求根本不需要最强模型。它是那种装上之后你很快就会忘记它存在,但月底看账单时会感谢它的工具。
相关链接