ScavioScavio
产品定价文档
登录开始使用
  1. 首页
  2. 教程
  3. 如何将网站转换为 LLM 就绪的 Markdown
教程

如何将网站转换为 LLM 就绪的 Markdown

在将其发送给法学硕士之前,从任何页面中剥离导航、cookie 横幅和页脚。与原始 HTML 相比,类型化 JSON 输出将标记减少了 60%。

获取免费API密钥API文档

LLM 就绪的降价很重要,因为代币浪费是真正的成本。典型的 API 文档页面包含 8,000 个 HTML 标记,但仅包含 2,500 个信号标记。本教程使用 Scavio 的提取端点来生成可用于代理上下文的令牌高效降价。

前置条件

  • Python 3.10+ 或 Node 20+
  • Scavio API 密钥

操作指南

步骤 1: 调用提取端点

Scavio 返回了去掉导航和 chrome 的 Markdown。

Python
import requests, os
API_KEY = os.environ['SCAVIO_API_KEY']

def to_markdown(url):
    r = requests.post('https://api.scavio.dev/api/v1/extract',
        headers={'x-api-key': API_KEY},
        json={'url': url, 'format': 'markdown'})
    return r.json().get('markdown', '')

步骤 2: 衡量代币节省

将原始 HTML 大小与 Markdown 进行比较。

Python
import tiktoken
enc = tiktoken.get_encoding('cl100k_base')

def compare(url):
    md = to_markdown(url)
    raw = requests.get(url).text
    return {'raw_tokens': len(enc.encode(raw)), 'md_tokens': len(enc.encode(md))}

步骤 3: 提交给LLM代理

Markdown 直接插入用户消息中。

Python
import anthropic
client = anthropic.Anthropic()

def summarize(url):
    md = to_markdown(url)
    msg = client.messages.create(
        model='claude-sonnet-4-6',
        max_tokens=512,
        messages=[{'role': 'user', 'content': f'Summarize in 5 bullets:\n{md[:6000]}'}])
    return msg.content[0].text

步骤 4: 缓存频繁获取的页面

避免重复调用稳定的文档页面。

Python
from functools import lru_cache

@lru_cache(maxsize=500)
def cached_markdown(url):
    return to_markdown(url)

步骤 5: 批量转换站点地图

循环遍历 sitemap.xml 进行批量转换。

Python
from xml.etree import ElementTree
def bulk(sitemap_url):
    r = requests.get(sitemap_url)
    urls = [e.text for e in ElementTree.fromstring(r.text).iter('{*}loc')]
    return {u: to_markdown(u) for u in urls[:50]}

Python 示例

Python
import os, requests
API_KEY = os.environ['SCAVIO_API_KEY']

def to_markdown(url):
    r = requests.post('https://api.scavio.dev/api/v1/extract',
        headers={'x-api-key': API_KEY},
        json={'url': url, 'format': 'markdown'})
    return r.json().get('markdown', '')

print(to_markdown('https://docs.prisma.io')[:500])

JavaScript 示例

JavaScript
const API_KEY = process.env.SCAVIO_API_KEY;
export async function toMarkdown(url) {
  const r = await fetch('https://api.scavio.dev/api/v1/extract', {
    method: 'POST',
    headers: { 'x-api-key': API_KEY, 'Content-Type': 'application/json' },
    body: JSON.stringify({ url, format: 'markdown' })
  });
  return (await r.json()).markdown || '';
}

预期输出

JSON
Clean markdown representation of the page, stripped of nav and cookies. Token count drops 40 to 60% versus raw HTML.

相关教程

  • 如何将 API 文档转换为光标的 Markdown
  • 如何利用 GitHub 存储库数据打好 LLM 基础
  • 如何使用实时 GitHub 问题和文档搜索构建编码代理

常见问题

大多数开发者在15到30分钟内完成本教程。您需要一个Scavio API密钥(免费套餐即可)和可用的Python或JavaScript环境。

Python 3.10+ 或 Node 20+. Scavio API 密钥. Scavio API密钥注册即送50个免费积分。

可以。免费套餐注册即送50个积分,完全足够完成本教程并构建一个可运行的原型解决方案。

Scavio提供原生LangChain包(langchain-scavio)、MCP服务器以及适用于任何HTTP客户端的REST API。本教程使用 the raw REST API, 但您可以根据需要适配您选择的框架。

相关资源

Workflow

HTML 到 Markdown 法学硕士预科工作流程

Read more
Glossary

HTML Token成本

Read more
Use Case

RAG 管道的 HTML 令牌节省

Read more
Workflow

每日本地法学硕士搜索接地管道

Read more
Best Of

2026 年法学硕士最佳网页抓取 API

Read more
Best Of

2026年本地LLM最佳网络搜索API

Read more

开始构建

在将其发送给法学硕士之前,从任何页面中剥离导航、cookie 横幅和页脚。与原始 HTML 相比,类型化 JSON 输出将标记减少了 60%。

获取免费API密钥阅读文档
ScavioScavio

面向AI智能体的实时搜索API。搜索所有平台,不仅仅是Google。

产品

  • 功能
  • 定价
  • 控制台
  • 联盟计划

开发者

  • 文档
  • API参考
  • 快速开始
  • MCP集成
  • Python SDK

替代方案

  • Tavily替代方案
  • SerpAPI替代方案
  • Firecrawl替代方案
  • Exa替代方案

工具

  • JSON格式化
  • cURL转代码
  • Token计数器
  • 全部工具

© 2026 Scavio. 保留所有权利。

Featured on TAAFT
服务条款隐私政策