A maioria das equipes hoje usa uma stack dividida: scrapers próprios com proxies residenciais e navegadores headless furtivos para tudo que está atrás de login ou carregado com muito JavaScript, e APIs de busca/SERP hospedadas para tudo que é público e já indexado. Em 2026 não existe uma única ferramenta que faça tudo bem, e uma thread recente do r/dataengineering ("Fora do scraping há alguns anos, o que cada um usa agora?", 60 votos) confirma. Uma resposta: "Fazer scraping do Google Search é muito difícil... você precisa de SERP ou vencer os engenheiros do Google." Outra: "Frágil demais para rodar sozinho, no trabalho usamos serviços de SERP." E uma terceira deu o motivo real: "enorme aumento do anti-bot da Cloudflare por causa da IA, ninguém quer ver seus dados levados de graça."
Esse último ponto explica tudo. O custo do scraping próprio subiu. Cloudflare, DataDome e PerimeterX ficaram melhores em detectar navegadores headless por fingerprinting, porque a corrida do ouro por dados de treino de IA deixou todo mundo na defensiva. Então a pergunta deixou de ser "qual biblioteca de scraping" e virou "a qual camada da stack este alvo pertence."
Camada 1: scrapers próprios + proxies residenciais
Você ainda precisa disso para alvos atrás de login ou renderizados inteiramente no cliente. Pense num painel logado, num relatório interno de SaaS, num app React que entrega um <div id="root"> vazio. Aqui você roda Playwright ou um fork furtivo, gira proxies residenciais e aceita que vai babá-lo. É a camada mais flexível e a mais frágil. Cada nova versão do desafio da Cloudflare custa uma tarde. O SearXNG fica perto: grátis e auto-hospedado, mas quebra quando os motores mudam o HTML e exige seus próprios proxies em volume.
Camada 2: APIs de scraping / crawl hospedadas
Quando você precisa do conteúdo de sites quaisquer mas não quer rodar os navegadores, uma API de crawl vale o preço. Firecrawl é a escolha comum: 1.000 créditos/mês grátis, plano Hobby a US$ 16/mês por ~3.000 créditos, com extração por IA cobrada a 5 créditos por chamada e créditos que não acumulam. O reader r.jina.ai da Jina AI devolve texto limpo e dá 10M de tokens grátis por chave para uso não comercial. Eles convertem HTML bagunçado em texto pronto para LLM. Não entregam campos tipados como "preço" ou "avaliação" a menos que você pague a passada de extração por IA.
Camada 3: APIs de busca / SERP estruturadas
É a camada que a maioria subutiliza. Se o alvo é público e indexado — resultados do Google, anúncios da Amazon, threads do Reddit, YouTube — uma API de busca entrega JSON estruturado e nunca briga com a Cloudflare, porque você não está rastreando o site: está consultando uma API que já fez isso. Serper vai de US$ 1,00 por 1.000 créditos até US$ 0,30/1k em escala, com 2.500 créditos grátis válidos por seis meses. SerpApi dá 250 buscas/mês grátis, depois US$ 25/mês por 1.000. Scavio é por crédito a US$ 0,005/crédito; uma SERP do Google completa custa 2 créditos, uma requisição leve 1, e uma única chave cobre Google, Reddit, YouTube, Amazon, Walmart e TikTok.
A regra de decisão
O alvo é público e indexado? Use uma API de busca e tenha JSON tipado sem briga anti-bot. Está atrás de login ou renderizado em JS? Você volta à Camada 1, ali nenhuma API te salva. Que fique claro: uma API SERP não substitui o scraping de páginas autenticadas ou renderizadas no cliente. Ela substitui o trabalho específico e doloroso de fazer scraping de SERPs públicas e anúncios de marketplace — exatamente o que a thread do Reddit chamou de "muito difícil."
Aqui uma consulta completa ao Google contra a Scavio devolvendo JSON estruturado:
import requests
resp = requests.post(
"https://api.scavio.dev/api/v1/google",
headers={"Authorization": "Bearer YOUR_API_KEY"},
json={"query": "best web scraping stack 2026", "light_request": False},
)
data = resp.json()
for result in data["organic"]:
print(result["position"], result["title"], result["link"])
# full_request também devolve people_also_ask, knowledge_graph, related_searches
for q in data.get("people_also_ask", []):
print("PAA:", q["question"])Sem navegador headless, sem pool de proxies, sem Cloudflare. Para Google, Reddit, Amazon e YouTube, é a resposta de 2026 a que a maioria chegou. Para o conteúdo fechado e pesado em JS, mantenha sua estrutura Playwright aquecida.
Onde cada um perde
Nenhuma ferramenta vence em tudo. Se você só consulta o Google algumas centenas de vezes por mês, as 250 grátis da SerpApi ou os 2.500 créditos grátis da Serper podem custar zero e superar qualquer plano pago. Se precisa de texto limpo de blogs aleatórios, Firecrawl ou Jina leem páginas que uma API SERP nunca foi feita para buscar. E se todos os seus alvos estão atrás de login, nem a Camada 2 nem a 3 ajudam: auto-hospede e monte proxies. Ajuste a camada ao alvo, não ao hype.