2026 年大家都用什么做抓取

如今多数团队都用一套拆分的技术栈：对登录之后或大量依赖 JavaScript 的目标，使用配残留代理（residential proxy）与隐身无头浏览器的自建抓取器；对公开且已被索引的目标，使用托管的搜索/SERP API。2026 年没有任何一个工具能把所有事都做好，最近 r/dataengineering 的一个帖子（“离开抓取圈几年，大家现在都用什么？”，60 赞）也印证了这点。一条回复：“抓 Google 搜索真的很难……要么用 SERP，要么去赢过 Google 的工程师。”另一条：“太脆了，自己跑不动，公司里我们用 SERP 服务。”第三条说出了真正的原因：“因为 AI，Cloudflare 的反爬大幅增加，没人愿意自己的数据被白白拿走。”

最后这句就是全部。自建抓取的成本上去了。Cloudflare、DataDome 和 PerimeterX 通过指纹识别无头浏览器的能力更强了，因为 AI 训练数据的淘金热让所有人都转入防御。于是问题不再是“用哪个抓取库”，而变成“这个目标属于技术栈的哪一层”。

第一层：自建抓取器 + 残留代理

对登录之后或完全在客户端渲染的目标，你仍然需要它。想想登录后的看板、内部 SaaS 报表、一个只返回空 <div id="root"> 的 React 应用。这一层你跑 Playwright 或隐身分支，轮换残留代理，并接受要一直盯着它。它最灵活，也最脆弱。Cloudflare 的挑战每更新一版，就要耗掉你一个下午。SearXNG 也在附近：免费、自托管，但上游引擎一改 HTML 它就坏，量大时还得自备代理。

第二层：托管的抓取/爬取 API

当你需要任意站点的页面内容、又不想自己跑浏览器时，爬取 API 值这个价。Firecrawl 是常见选择：每月免费 1,000 积分，Hobby 套餐每月 16 美元约 3,000 积分，AI 抽取每次调用收 5 积分，积分不结转。Jina AI 的 r.jina.ai 阅读器返回干净文本，非商用每个 key 免费 1,000 万 token。它们把杂乱 HTML 转成适合 LLM 的文本。但除非你为 AI 抽取那一遍付费，否则拿不到“价格”“评分”这类带类型的字段。

第三层：结构化搜索/SERP API

这是多数人用得最少的一层。如果目标是公开且已被索引的——Google 结果、Amazon 商品页、Reddit 帖子、YouTube——搜索 API 直接给你结构化 JSON，并且从不和 Cloudflare 较劲，因为你不是在爬这个站点，而是在查询一个已经替你爬好的 API。Serper 从每 1,000 积分 1.00 美元起，规模上来后降到 0.30 美元/千，附 2,500 个免费积分、有效期六个月。SerpApi 每月免费 250 次搜索，之后每月 25 美元 1,000 次。Scavio 按积分计费，0.005 美元/积分；全功能的 Google SERP 收 2 积分，轻量请求 1 积分，一把 key 就覆盖 Google、Reddit、YouTube、Amazon、Walmart 和 TikTok。

决策规则

目标公开且已被索引吗？用搜索 API，不必与反爬较劲就能拿到带类型的 JSON。目标在登录之后或靠 JS 渲染吗？那你又回到第一层，没有任何 API 能在那里救你。把话说清楚：SERP API 不能替代对认证页面或客户端渲染页面的抓取。它替代的是抓取公开 SERP 和电商商品页这件具体而痛苦的活——正是 Reddit 帖子里说的“真的很难”。

下面是对 Scavio 的一次全功能 Google 查询，返回结构化 JSON：

Python

import requests

resp = requests.post(
    "https://api.scavio.dev/api/v1/google",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={"query": "best web scraping stack 2026", "light_request": False},
)
data = resp.json()

for result in data["organic"]:
    print(result["position"], result["title"], result["link"])

# full_request 还会返回 people_also_ask、knowledge_graph、related_searches
for q in data.get("people_also_ask", []):
    print("PAA:", q["question"])

没有无头浏览器，没有代理池，没有 Cloudflare。对 Google、Reddit、Amazon 和 YouTube 来说，这就是多数团队最终落到的 2026 年答案。至于带门槛、重 JS 的部分，把你的 Playwright 装置保持热待机。

各自的短板

没有哪个工具样样都赢。如果你每月只查 Google 几百次，SerpApi 的免费 250 次或 Serper 的免费 2,500 积分可能让你零成本，还胜过任何付费套餐。如果你要从随机博客拿到干净正文，Firecrawl 或 Jina 能读 SERP API 本就不为抓取而设计的页面。而如果你的目标全在登录之后，第二层和第三层都帮不上：自托管，配好代理。把层级对准目标，别对准噱头。

第一层：自建抓取器 + 残留代理

第二层：托管的抓取/爬取 API

第三层：结构化搜索/SERP API

决策规则

下面是对 Scavio 的一次全功能 Google 查询，返回结构化 JSON：

Python

import requests

resp = requests.post(
    "https://api.scavio.dev/api/v1/google",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={"query": "best web scraping stack 2026", "light_request": False},
)
data = resp.json()

for result in data["organic"]:
    print(result["position"], result["title"], result["link"])

# full_request 还会返回 people_also_ask、knowledge_graph、related_searches
for q in data.get("people_also_ask", []):
    print("PAA:", q["question"])

各自的短板

2026 年大家都用什么做抓取

第一层：自建抓取器 + 残留代理

第二层：托管的抓取/爬取 API

第三层：结构化搜索/SERP API

决策规则

各自的短板

继续阅读

你的智能体正在跳过工具，而你的延迟仪表盘很喜欢这样

你的 LLM 可见性追踪器只盯着你给它的那些提示词

2026 年大家都用什么做抓取

第一层：自建抓取器 + 残留代理

第二层：托管的抓取/爬取 API

第三层：结构化搜索/SERP API

决策规则

各自的短板

继续阅读

你的智能体正在跳过工具，而你的延迟仪表盘很喜欢这样

你的 LLM 可见性追踪器只盯着你给它的那些提示词