概述
用于从索引公共内容构建 10M 令牌 RAG 语料库的搜索即源工作流程。避免大多数刮擦疼痛。
触发器
每个主题构建(一次性或每季度刷新)
计划
每个主题(一次性或每季度)
工作流步骤
1
定义 200-500 个涵盖该主题的种子查询
主题广度 > 个别查询的深度。
2
每个种子的 Scavio Google SERP
收集organic_results URL。
3
删除重复的 URL 设置
许多种子都出现在相同的权威页面上。
4
Scavio /extract 在前 2K 个 URL 上
返回干净的 Markdown 文本。
5
代币预算削减
停在 10M 代币;更喜欢具有较高域名权限的 URL。
6
嵌入并运送到矢量商店
根据您现有的 RAG 嵌入管道。
Python 实现
Python
import requests, os
H = {'x-api-key': os.environ['SCAVIO_API_KEY']}
def build_corpus(seeds, per_query=10):
urls = set()
for q in seeds:
r = requests.post('https://api.scavio.dev/api/v1/search', headers=H, json={'query': q}).json()
for o in (r.get('organic_results') or [])[:per_query]:
urls.add(o['link'])
docs = []
for u in list(urls)[:2000]:
d = requests.post('https://api.scavio.dev/api/v1/extract', headers=H, json={'url': u}).json()
if d.get('text'): docs.append(d['text'])
return docsJavaScript 实现
JavaScript
// Same shape in TS — search per seed, dedupe, extract top-N.使用的平台
包含知识图谱、PAA和AI概览的网页搜索