定义
搜索 API 延迟预算是 Agent 或应用中搜索 API 调用的最大可接受响应时间,超过该时间用户体验将下降或触发下游超时。
深入了解
延迟预算取决于应用类型。交互式聊天应用(用户等待响应):工具调用总预算400-800ms,意味着搜索必须在600ms内返回以为 LLM 生成留出余量。后台批处理管道:每次调用2,000-5,000ms可接受。实时监控告警:在错过检测窗口前1,000-2,000ms。 典型搜索 API 延迟范围(p50 / p95,2026年): - Scavio:350ms / 900ms - SerpAPI:1,200ms / 3,500ms - Serper:400ms / 1,100ms - Brave Search:250ms / 700ms - Exa:600ms / 1,800ms - Tavily:800ms / 2,200ms 自托管或无服务器 MCP 服务器的冷启动增加1,500-4,000ms。并行搜索调用(同时查询多个关键词)可减少多查询任务的总延迟:5个并行搜索各400ms,总共完成时间400ms而非2,000ms。 对于交互式应用:目标搜索总延迟低于2秒以维持对话流畅性。在非高峰时段预缓存常见查询。搜索部分的预算不应超过目标总响应时间的30%。
用法示例
一个目标2秒总响应时间的聊天机器人分配600ms给搜索 API、1,200ms给 LLM 生成、200ms给流式传输开销。Scavio 的350ms p50符合要求;SerpAPI 的1,200ms p50在一半查询上超出预算。
平台
搜索 API 延迟预算在以下平台中相关,所有这些平台都可通过Scavio的统一API访问: