2026 年 5 月的两篇 r/posts(Claude Code 通过合并削减 40%;通过 Nosana 上的 Qwen3 35B 批量路由 20×)说明了这一点。这是务实的秘诀。
前置条件
- 克劳德代码 Plus 或更高版本
- 安装 Semble 用于仓库内查找
- Scavio API 密钥
- 两周测量窗口
操作指南
步骤 1: 基线:任何改变之前的两周测量
在接触任何内容之前捕获每条消息的输入/输出标记。
Text
// Use Anthropic console or self-rolled wrapper.步骤 2: 安装组合
返回匹配范围,而不是完整文件。
Bash
// Per Semble repo README:
// claude mcp add semble <semble-url>步骤 3: 安装 Scavio MCP
将 5-8 个窄幅网络工具替换为 1 个。
Bash
claude mcp add scavio https://mcp.scavio.dev/mcp --header 'x-api-key: $SCAVIO_API_KEY'步骤 4: 放弃未使用的窄网/抓取技能
工具整合=每条消息描述标记的削减。
Text
// claude mcp list → identify duplicates and never-invoked → claude mcp remove <name>步骤 5: 更新CLAUDE.md/系统提示符
路由规则。
Text
// CLAUDE.md: For in-repo code lookup use semble. For out-of-repo use scavio.search. Don't grep+read.步骤 6: 两周后重新测量
每条消息输入+输出标记。
Text
// Compare before/after. Heavy users on >100K LOC repos typically see 30-50% per-week cost cut.步骤 7: 可选:用于批量步骤的本地 LLM 路由 MCP
特定于工作负载。
Text
// claude mcp add local-llm <mcp-url>Python 示例
Python
# Heavy user with $300/mo in tokens cutting 40% saves ~$120/mo.JavaScript 示例
JavaScript
// Same shape; the work is config + system prompt + measurement.预期输出
JSON
Per-week Claude Code token cost drops 30-50% on heavy users, measured before/after.