r/Rag 帖子询问使用哪个抓取工具来获取约 1000 万代币。索引公共内容的更便宜、更可靠的形式是搜索即源。这就是食谱。
前置条件
- Scavio API 密钥
- Python 或节点
- 具有 200-500 个种子查询候选的主题
- 嵌入管道
操作指南
步骤 1: 定义 200-500 个种子查询
主题广度 > 深度。
Python
seeds = ['ai agent infrastructure 2026', 'agent memory patterns', 'tool use mcp', ...]步骤 2: 每个种子的 Scavio Google SERP
收集organic_results URL。
Python
import requests, os
H = {'x-api-key': os.environ['SCAVIO_API_KEY']}
urls = set()
for q in seeds:
r = requests.post('https://api.scavio.dev/api/v1/search', headers=H, json={'query': q}).json()
for o in (r.get('organic_results') or [])[:10]:
urls.add(o['link'])步骤 3: 删除重复的 URL 设置
许多种子都出现在相同的权威页面上。
Python
print(f'Unique URLs: {len(urls)}')步骤 4: Scavio /extract 在热门 URL 上
返回干净的 Markdown。
Python
docs = []
for u in list(urls)[:2000]:
d = requests.post('https://api.scavio.dev/api/v1/extract', headers=H, json={'url': u}).json()
if d.get('text'): docs.append({'url': u, 'text': d['text']})步骤 5: 代币预算削减
停在 10M 代币。
Python
# Walk top-N until cumulative tokens hit 10M.步骤 6: 嵌入并运送到矢量商店
根据现有管道。
Python
# Voyage / OpenAI / Cohere → Pinecone / Qdrant / pgvector.步骤 7: 每季度刷新一次
重新运行 + diff URL 设置。
Python
# Cron: quarterly. Embed only new/changed pages.Python 示例
Python
# Total cost: ~11K credits ≈ $50-90 within Project tier.JavaScript 示例
JavaScript
// Same shape in TS.预期输出
JSON
10M-token RAG corpus from indexed public content. ~5K unique URLs → ~2K extracted → 8M tokens of clean Markdown.