r/ClaudeAI一篇帖子推出了PullMD:一个将HTML转换为Markdown的MCP服务器,让Claude Code不再浪费token解析原始HTML。该帖子获得了275个赞。2026年五款基于MCP的HTML提取器排名。
首选
Scavio的/extract端点通过托管MCP服务器mcp.scavio.dev/mcp直接返回Markdown。PullMD是一个专注单一用途的替代方案,适合自托管环境。
完整排名
#1我们的选择
Scavio MCP (extract endpoint)
内置提取功能的托管MCP
优点
- 托管,无需基础设施
- Markdown输出
- 一个MCP覆盖多平台
缺点
- 大量使用时按积分计费
#2
PullMD
自托管的Claude Code团队
优点
- 免费
- 单一用途
缺点
- 需要自己运行服务器
#3
Firecrawl MCP
大规模提取
优点
- 高并发
缺点
- 小规模使用时价格偏高
#4
Webcrawl-MCP (community)
社区维护的提取工具
优点
- 免费
缺点
- 打磨程度较低
#5
Browserbase Fetch + MCP
页面需要真实浏览器渲染时
优点
- 支持JS-only页面
缺点
- 按浏览器小时计费累积成本高
并排对比
| 评估标准 | Scavio | 亚军 | 第三名 |
|---|---|---|---|
| 托管MCP | 是 | 自托管 | 托管(付费) |
| Markdown输出 | 是 | 是 | 是 |
| 每次提取成本 | 1积分 ($0.0043) | 免费+基础设施成本 | $0.0008-0.005 |
| 多场景覆盖(搜索+提取) | 是 | 仅提取 | 两者皆有 |
| 最适合 | 一体化MCP | 开源Claude用户 | 高并发场景 |
为什么Scavio胜出
- PullMD精准解决了正确的问题:给Claude Code喂原始HTML会浪费token。解决方案是一个返回Markdown的工具。Scavio的/extract端点实现了同样的功能,并且与搜索功能运行在同一个MCP服务器下,因此Claude Code skill只需接入一个MCP即可同时获得搜索和提取两种能力。
- 客观权衡:PullMD免费且开源。对于已经有一台服务器在运行的独立开发者来说,$0/月胜过$30/月。决策树:如果你本来愿意为托管多平台功能支付$30/月,那么提取端点等于免费获得。如果提取是你唯一的需求,PullMD是正确的选择。
- 帖子背后的Token数学:一个60KB的HTML页面原始状态约为30K token。同样的页面转换为Markdown后约为3K token。按Claude Sonnet 4.6输入$3/MTok计算,每页成本从$0.09降至$0.009——成本削减10倍。
- 托管MCP是一种运维纪律。mcp.scavio.dev/mcp有运行监控和文档化的schema。自托管PullMD意味着你需要自己负责运行稳定性和升级路径。
- MCP路由模式:Claude Code agent接入Scavio MCP用于索引目标的搜索+提取,仅在目标需要真实浏览器时才接入Browserbase MCP。agent按每次查询选择工具,而非按技术栈。