定义
爬取 vs 搜索构建 RAG 是构建大型 RAG 语料库的决策规则:当你需要从已知 URL 获取完整页面文本(尤其是需要登录或 JS 密集型的目标)时用爬取;当你可以将语料库表达为对已索引公共源的查询,让 SERP/Reddit/YouTube/Amazon API 返回类型化 JSON 时用搜索。
深入了解
2026年5月 r/Rag 上有帖子问用哪个网页爬虫获取约1000万 token 的技术文章、文档、博客和 PDF。2026年的诚实回答:这个问题的框架本身往往就不对。对于技术文章+文档(被良好索引、结构良好),更便宜且更可靠的方法是搜索即来源——用 Scavio Google SERP 查询你想要的话题,将自然搜索结果 + 精选摘要 + AI Overview 作为类型化 JSON 返回,然后用 extract 将 top-N URL 转为 Markdown。这避免了大部分爬取痛点(Cloudflare、布局变化、无头基础设施),同时仍然能获得用于 embedding 的原文。对于 PDF 教育内容,正确的方式仍然是爬取 + PDF 解析器;对于需要登录或 JS 密集型的目标,爬取不可避免。成本差异:通过搜索即来源获取1000万 token 通常需要 $20-80 的 Scavio + extract credits;通过脆弱的爬取 + 无头基础设施则成本不定但通常更高且运维更重。
用法示例
为"AI Agent 基础设施"主题构建 RAG 语料库。200个种子查询通过 Scavio Google 搜索得到约5,000个唯一 URL,取 top-2K 通过 /extract 获得约800万 token 的干净 Markdown。Scavio 总成本约 $50-90。无需爬虫维护、无需无头渲染,全程类型化 JSON。
平台
爬取 vs 搜索构建 RAG在以下平台中相关,所有这些平台都可通过Scavio的统一API访问: