定义
搜索增强 RAG 是一种检索增强生成模式,用实时搜索 API 结果替代向量数据库进行检索步骤,无需 embedding 管道即可提供实时网络数据。
深入了解
传统 RAG 需要:向量数据库(Pinecone $70/月起,Weaviate $25/月起,或自托管)、embedding 模型(OpenAI ada-002 $0.0001/1k tokens 或自托管)以及分块/摄取管道。搜索增强 RAG 消除了这三者。权衡是检索时的单次查询成本以及对公开网络数据的依赖。 对于覆盖公开可得信息的知识库——产品文档、竞争情报、新闻、定价——搜索增强 RAG 在新鲜度上优于向量 RAG。上周索引的向量存储不会有昨天的定价变更;搜索 API 调用会有。对于专有内部文档,向量 RAG 仍然必要。 延迟对比:从托管数据库的向量检索是50-200ms。搜索 API 调用是400-1200ms。对于交互式应用,这个差异很重要;对于批处理管道则不是。按 Scavio 的 $0.005/credit,搜索增强 RAG 每1,000次检索操作成本 $5——比大多数同等查询量的托管向量数据库方案便宜。与 $70/月向量数据库的盈亏平衡点大约在每月14,000次查询,超过这个量级向量 RAG 更便宜。
用法示例
一个 B2B 竞争情报工具用 Scavio 搜索 API(820ms检索,$0.005/次查询)替换了 Pinecone 向量存储(68ms检索,$70/月)。每月2,000次查询时,成本从 $70 降到 $10,且竞争对手定价结果更新鲜。
平台
搜索增强 RAG在以下平台中相关,所有这些平台都可通过Scavio的统一API访问: