定义
结构化 SERP 数据是以类型化 JSON 字段——标题、URL、摘要、位置、价格、评分、日期——交付的搜索引擎结果,而非需要解析的原始 HTML。
深入了解
原始 HTML 爬取 Google 搜索结果需要维护每年崩溃3-5次的 CSS 选择器(随着 Google 更新其 DOM)。解析后的 SERP API 以稳定的 JSON 契约交付相同数据。工程成本差异:原始爬虫需要20-40小时构建和5-10小时/年维护;SERP API 集成需要1-2小时集成且零维护。 结构化字段因结果类型而异。网页结果包括:title(字符串)、url(字符串)、snippet(字符串,150-200字符)、position(整数)、date(可用时为 ISO 字符串)。购物结果额外有 price(含货币的字符串)、rating(浮点数)、reviews(整数)、seller(字符串)。知识面板结果额外有 description、attributes(键值对)、website。这些字段可被 LLM 直接消费而无需解析逻辑。 特别是对于 AI Agent 使用,结构化数据可以在无预处理的情况下进行提示注入。摘要字段可以直接插入系统提示:"根据 [来源]:[摘要]"。原始 HTML 注入提示为相同信息密度消耗10-50倍 token,增加了成本和 LLM 在大量 HTML 块中丢失相关内容焦点的可能性。
用法示例
一个注入结构化 SERP 摘要的 Agent 每个锚定答案使用850 token。同一 Agent 为相同查询注入原始 HTML 每个答案使用11,200 token——多13倍,LLM API 成本成比例增加。
平台
结构化 SERP 数据在以下平台中相关,所有这些平台都可通过Scavio的统一API访问:
- amazon
- walmart