问题所在
一个r/Rag帖子:需要约1000万token的技术文章+文档+博客+PDF用于RAG管道。简单方案是逐站抓取,但代理池+反爬对抗+每站解析器维护使成本和复杂度急剧上升。
Scavio 解决方案
搜索即数据源管道:200-500个种子查询 -> Scavio Google SERP -> URL去重 -> 对前2000个URL使用Scavio /extract -> LLM清洗 -> 写入Qdrant/Postgres。
之前
抓取管道+无头浏览器基础设施+Cloudflare对抗+每站解析器维护,构建1000万token语料库。工程时间数周。
之后
200个种子查询->约5000个去重URL->提取前2000个->约800万token清洁Markdown。Scavio总成本$20-90。
适用人群
构建RAG的AI工程师、RAG SaaS创始人、在100万-1000万token规模构建领域语料库的研究实验室。
核心优势
- 对已索引的公开内容避免大部分抓取痛点
- 类型化JSON输入输出
- 可预测的每主题成本
- 1000万token Scavio+提取成本$20-90
- 仅对需要登录/JS渲染的内容保留抓取
Python 示例
import requests, os
H = {'x-api-key': os.environ['SCAVIO_API_KEY']}
def build_corpus(seeds, per_query=10):
urls = set()
for q in seeds:
r = requests.post('https://api.scavio.dev/api/v1/search', headers=H, json={'query': q}).json()
for o in (r.get('organic_results') or [])[:per_query]:
urls.add(o['link'])
docs = []
for u in list(urls)[:2000]:
d = requests.post('https://api.scavio.dev/api/v1/extract', headers=H, json={'url': u}).json()
if d.get('text'): docs.append(d['text'])
return docsJavaScript 示例
// Same shape in TS — search per seed, dedupe, extract top-N.使用的平台
包含知识图谱、PAA和AI概览的网页搜索