ScavioScavio
产品定价文档
登录开始使用
  1. 首页
  2. 教程
  3. 如何使用 Scavio 构建 1000 万代币的 RAG 语料库 (2026)
教程

如何使用 Scavio 构建 1000 万代币的 RAG 语料库 (2026)

搜索作为源:200 个种子查询 → Scavio Google → /extract 前 2K → 8M 个干净 Markdown 标记。 〜50-90 美元。

获取免费API密钥API文档

r/Rag 帖子询问使用哪个抓取工具来获取约 1000 万代币。索引公共内容的更便宜、更可靠的形式是搜索即源。这就是食谱。

前置条件

  • Scavio API 密钥
  • Python 或节点
  • 具有 200-500 个种子查询候选的主题
  • 嵌入管道

操作指南

步骤 1: 定义 200-500 个种子查询

主题广度 > 深度。

Python
seeds = ['ai agent infrastructure 2026', 'agent memory patterns', 'tool use mcp', ...]

步骤 2: 每个种子的 Scavio Google SERP

收集organic_results URL。

Python
import requests, os
H = {'x-api-key': os.environ['SCAVIO_API_KEY']}
urls = set()
for q in seeds:
    r = requests.post('https://api.scavio.dev/api/v1/search', headers=H, json={'query': q}).json()
    for o in (r.get('organic_results') or [])[:10]:
        urls.add(o['link'])

步骤 3: 删除重复的 URL 设置

许多种子都出现在相同的权威页面上。

Python
print(f'Unique URLs: {len(urls)}')

步骤 4: Scavio /extract 在热门 URL 上

返回干净的 Markdown。

Python
docs = []
for u in list(urls)[:2000]:
    d = requests.post('https://api.scavio.dev/api/v1/extract', headers=H, json={'url': u}).json()
    if d.get('text'): docs.append({'url': u, 'text': d['text']})

步骤 5: 代币预算削减

停在 10M 代币。

Python
# Walk top-N until cumulative tokens hit 10M.

步骤 6: 嵌入并运送到矢量商店

根据现有管道。

Python
# Voyage / OpenAI / Cohere → Pinecone / Qdrant / pgvector.

步骤 7: 每季度刷新一次

重新运行 + diff URL 设置。

Python
# Cron: quarterly. Embed only new/changed pages.

Python 示例

Python
# Total cost: ~11K credits ≈ $50-90 within Project tier.

JavaScript 示例

JavaScript
// Same shape in TS.

预期输出

JSON
10M-token RAG corpus from indexed public content. ~5K unique URLs → ~2K extracted → 8M tokens of clean Markdown.

相关教程

  • 如何用真实来源构建迷你困惑(垂直)

常见问题

大多数开发者在15到30分钟内完成本教程。您需要一个Scavio API密钥(免费套餐即可)和可用的Python或JavaScript环境。

Scavio API 密钥. Python 或节点. 具有 200-500 个种子查询候选的主题. 嵌入管道. Scavio API密钥注册即送50个免费积分。

可以。免费套餐注册即送50个积分,完全足够完成本教程并构建一个可运行的原型解决方案。

Scavio提供原生LangChain包(langchain-scavio)、MCP服务器以及适用于任何HTTP客户端的REST API。本教程使用 the raw REST API, 但您可以根据需要适配您选择的框架。

相关资源

Best Of

大规模 RAG 语料库构建的最佳工具 (2026)

Read more
Solution

大型RAG语料库构建方案(1000万Token)

Read more
Workflow

RAG Corpus 构建工作流程(10M 代币)

Read more
Glossary

爬取 vs 搜索构建 RAG

Read more
Comparison

Scavio vs Tavily

Read more
Best Of

2026年带引用的RAG最佳搜索API

Read more

开始构建

搜索作为源:200 个种子查询 → Scavio Google → /extract 前 2K → 8M 个干净 Markdown 标记。 〜50-90 美元。

获取免费API密钥阅读文档
ScavioScavio

面向AI智能体的实时搜索API。搜索所有平台,不仅仅是Google。

产品

  • 功能
  • 定价
  • 控制台
  • 联盟计划

开发者

  • 文档
  • API参考
  • 快速开始
  • MCP集成
  • Python SDK

替代方案

  • Tavily替代方案
  • SerpAPI替代方案
  • Firecrawl替代方案
  • Exa替代方案

工具

  • JSON格式化
  • cURL转代码
  • Token计数器
  • 全部工具

© 2026 Scavio. 保留所有权利。

Featured on TAAFT
服务条款隐私政策