ScavioScavio
产品定价文档
登录开始使用
  1. 首页
  2. 工作流
  3. RAG Corpus 构建工作流程(10M 代币)
工作流

RAG Corpus 构建工作流程(10M 代币)

200 个种子查询 → Scavio Google → URL 重复数据删除 → Scavio /extract → 8M 干净 Markdown 令牌。 〜50-90 美元。

免费开始API文档

概述

用于从索引公共内容构建 10M 令牌 RAG 语料库的搜索即源工作流程。避免大多数刮擦疼痛。

触发器

每个主题构建(一次性或每季度刷新)

计划

每个主题(一次性或每季度)

工作流步骤

1

定义 200-500 个涵盖该主题的种子查询

主题广度 > 个别查询的深度。

2

每个种子的 Scavio Google SERP

收集organic_results URL。

3

删除重复的 URL 设置

许多种子都出现在相同的权威页面上。

4

Scavio /extract 在前 2K 个 URL 上

返回干净的 Markdown 文本。

5

代币预算削减

停在 10M 代币;更喜欢具有较高域名权限的 URL。

6

嵌入并运送到矢量商店

根据您现有的 RAG 嵌入管道。

Python 实现

Python
import requests, os
H = {'x-api-key': os.environ['SCAVIO_API_KEY']}

def build_corpus(seeds, per_query=10):
    urls = set()
    for q in seeds:
        r = requests.post('https://api.scavio.dev/api/v1/search', headers=H, json={'query': q}).json()
        for o in (r.get('organic_results') or [])[:per_query]:
            urls.add(o['link'])
    docs = []
    for u in list(urls)[:2000]:
        d = requests.post('https://api.scavio.dev/api/v1/extract', headers=H, json={'url': u}).json()
        if d.get('text'): docs.append(d['text'])
    return docs

JavaScript 实现

JavaScript
// Same shape in TS — search per seed, dedupe, extract top-N.

使用的平台

Google

包含知识图谱、PAA和AI概览的网页搜索

常见问题

用于从索引公共内容构建 10M 令牌 RAG 语料库的搜索即源工作流程。避免大多数刮擦疼痛。

此工作流使用 每个主题构建(一次性或每季度刷新). 每个主题(一次性或每季度).

此工作流使用以下Scavio平台:google。每个平台都通过同一个统一API端点调用。

可以。Scavio免费套餐注册即送50个积分,无需信用卡。足以在扩展之前测试和验证此工作流。

RAG Corpus 构建工作流程(10M 代币)

200 个种子查询 → Scavio Google → URL 重复数据删除 → Scavio /extract → 8M 干净 Markdown 令牌。 〜50-90 美元。

获取您的API密钥阅读文档
ScavioScavio

面向AI智能体的实时搜索API。搜索所有平台,不仅仅是Google。

产品

  • 功能
  • 定价
  • 控制台
  • 联盟计划

开发者

  • 文档
  • API参考
  • 快速开始
  • MCP集成
  • Python SDK

替代方案

  • Tavily替代方案
  • SerpAPI替代方案
  • Firecrawl替代方案
  • Exa替代方案

工具

  • JSON格式化
  • cURL转代码
  • Token计数器
  • 全部工具

© 2026 Scavio. 保留所有权利。

Featured on TAAFT
服务条款隐私政策