如今多数团队都用一套拆分的技术栈:对登录之后或大量依赖 JavaScript 的目标,使用配残留代理(residential proxy)与隐身无头浏览器的自建抓取器;对公开且已被索引的目标,使用托管的搜索/SERP API。2026 年没有任何一个工具能把所有事都做好,最近 r/dataengineering 的一个帖子(“离开抓取圈几年,大家现在都用什么?”,60 赞)也印证了这点。一条回复:“抓 Google 搜索真的很难……要么用 SERP,要么去赢过 Google 的工程师。”另一条:“太脆了,自己跑不动,公司里我们用 SERP 服务。”第三条说出了真正的原因:“因为 AI,Cloudflare 的反爬大幅增加,没人愿意自己的数据被白白拿走。”
最后这句就是全部。自建抓取的成本上去了。Cloudflare、DataDome 和 PerimeterX 通过指纹识别无头浏览器的能力更强了,因为 AI 训练数据的淘金热让所有人都转入防御。于是问题不再是“用哪个抓取库”,而变成“这个目标属于技术栈的哪一层”。
第一层:自建抓取器 + 残留代理
对登录之后或完全在客户端渲染的目标,你仍然需要它。想想登录后的看板、内部 SaaS 报表、一个只返回空 <div id="root"> 的 React 应用。这一层你跑 Playwright 或隐身分支,轮换残留代理,并接受要一直盯着它。它最灵活,也最脆弱。Cloudflare 的挑战每更新一版,就要耗掉你一个下午。SearXNG 也在附近:免费、自托管,但上游引擎一改 HTML 它就坏,量大时还得自备代理。
第二层:托管的抓取/爬取 API
当你需要任意站点的页面内容、又不想自己跑浏览器时,爬取 API 值这个价。Firecrawl 是常见选择:每月免费 1,000 积分,Hobby 套餐每月 16 美元约 3,000 积分,AI 抽取每次调用收 5 积分,积分不结转。Jina AI 的 r.jina.ai 阅读器返回干净文本,非商用每个 key 免费 1,000 万 token。它们把杂乱 HTML 转成适合 LLM 的文本。但除非你为 AI 抽取那一遍付费,否则拿不到“价格”“评分”这类带类型的字段。
第三层:结构化搜索/SERP API
这是多数人用得最少的一层。如果目标是公开且已被索引的——Google 结果、Amazon 商品页、Reddit 帖子、YouTube——搜索 API 直接给你结构化 JSON,并且从不和 Cloudflare 较劲,因为你不是在爬这个站点,而是在查询一个已经替你爬好的 API。Serper 从每 1,000 积分 1.00 美元起,规模上来后降到 0.30 美元/千,附 2,500 个免费积分、有效期六个月。SerpApi 每月免费 250 次搜索,之后每月 25 美元 1,000 次。Scavio 按积分计费,0.005 美元/积分;全功能的 Google SERP 收 2 积分,轻量请求 1 积分,一把 key 就覆盖 Google、Reddit、YouTube、Amazon、Walmart 和 TikTok。
决策规则
目标公开且已被索引吗?用搜索 API,不必与反爬较劲就能拿到带类型的 JSON。目标在登录之后或靠 JS 渲染吗?那你又回到第一层,没有任何 API 能在那里救你。把话说清楚:SERP API 不能替代对认证页面或客户端渲染页面的抓取。它替代的是抓取公开 SERP 和电商商品页这件具体而痛苦的活——正是 Reddit 帖子里说的“真的很难”。
下面是对 Scavio 的一次全功能 Google 查询,返回结构化 JSON:
import requests
resp = requests.post(
"https://api.scavio.dev/api/v1/google",
headers={"Authorization": "Bearer YOUR_API_KEY"},
json={"query": "best web scraping stack 2026", "light_request": False},
)
data = resp.json()
for result in data["organic"]:
print(result["position"], result["title"], result["link"])
# full_request 还会返回 people_also_ask、knowledge_graph、related_searches
for q in data.get("people_also_ask", []):
print("PAA:", q["question"])没有无头浏览器,没有代理池,没有 Cloudflare。对 Google、Reddit、Amazon 和 YouTube 来说,这就是多数团队最终落到的 2026 年答案。至于带门槛、重 JS 的部分,把你的 Playwright 装置保持热待机。
各自的短板
没有哪个工具样样都赢。如果你每月只查 Google 几百次,SerpApi 的免费 250 次或 Serper 的免费 2,500 积分可能让你零成本,还胜过任何付费套餐。如果你要从随机博客拿到干净正文,Firecrawl 或 Jina 能读 SERP API 本就不为抓取而设计的页面。而如果你的目标全在登录之后,第二层和第三层都帮不上:自托管,配好代理。把层级对准目标,别对准噱头。