Usa una API de busqueda estructurada para descubrir y para cualquier dato publico ya indexado, y deja el scraper solo para las paginas que estan tras un login o que necesitan un navegador real para renderizarse. Ese reparto es la forma mas barata y fiable de montar un agente de investigacion en 2026, y casi todos los equipos llegan a el por las malas.
El patron aparece una y otra vez. Un hilo de r/AI_Agents lo decia sin rodeos: "Los agentes de investigacion estan masacrando mi presupuesto con scraping. Que stack usa la gente ahora mismo?" El stack que describian en los comentarios era este: un orquestador que abre en abanico tres a cinco drones de busqueda (Brave, Tavily, DDG), luego Firecrawl para la extraccion, y Playwright como ultimo recurso cuando una web se resistia. El dolor que nombraban era siempre el mismo: los retos de Cloudflare y la factura de los proxies residenciales.
Primero descubrir, luego extraer
La razon de que estos dos pasos funcionen no tiene misterio. Alguien en r/LocalLLM lo dijo mejor que yo: "en cuanto separas el descubrimiento de la extraccion, un monton de casos raros simplemente desaparecen", y "busca primero y extrae despues... la diferencia de fiabilidad frente a un scraping de una sola pasada es brutal".
El motivo es claro. Descubrir es un problema de datos estructurados. Quieres una lista ordenada de URLs, titulos, fragmentos y preguntas relacionadas para una consulta. Esos datos ya estan indexados y una API SERP te los sirve en JSON limpio. No necesitas un navegador headless, ni un pool de proxies, ni saltarte Cloudflare. Extraer es otro problema: sacar el texto completo de las pocas paginas que tu agente de verdad decidio leer. Ahi es donde el scraper se gana el sueldo.
Cuando un equipo se salta el descubrimiento y llega a las URLs a base de scraping, quema dinero y fiabilidad en un trabajo que una API SERP hace por una fraccion del coste. Buena parte de lo que la gente llama su "factura de scraping" es descubrimiento disfrazado.
Las cuentas
Pongamos precio. Firecrawl es gratis hasta 1.000 creditos al mes; luego el plan Hobby cuesta 16 $/mes (facturado anual) por 5.000 creditos y 5 procesos en paralelo. Cobra 1 credito por pagina, y su funcion Search cuesta 2 creditos por cada 10 resultados. Firecrawl es una buena herramienta de extraccion, pero usar su Search para descubrir significa gastar creditos de extraccion en encontrar enlaces.
Exa Search cuesta 0,007 $ por peticion (7 $ por 1.000). La SERP de Google de Scavio es 1 credito en peticion ligera, que a 0,005 $ por credito sale a 0,005 $ por peticion; la SERP completa con light_request=false son 2 creditos (0,01 $). Para puro descubrimiento, casi siempre te basta con la peticion ligera.
La forma importa mas que el numero por llamada. Si tu agente lanza mil busquedas y solo extrae las veinte paginas que de verdad parecen relevantes, pagas precio de SERP por las mil y precio de extraccion por las veinte, en lugar de pagar precio de scraper por todo y pelearte con proxies todo el camino.
Descubrir con una llamada SERP de Scavio
Esto devuelve una lista ordenada que tu agente puede priorizar, filtrar y extraer de forma selectiva:
import os, requests
H = {"Authorization": f"Bearer {os.environ['SCAVIO_API_KEY']}", "Content-Type": "application/json"}
r = requests.post("https://api.scavio.dev/api/v1/google", headers=H,
json={"query": "best serp api", "light_request": False})
data = r.json()
for row in data["organic_results"]:
print(row["position"], row["title"], row["link"])Recibes organic_results, people_also_ask, knowledge_graph y related_searches como JSON estructurado. Sin pool de proxies, sin pelea con Cloudflare. (Scavio no devuelve los AI Overviews de Google, asi que no construyas nada sobre eso.) La misma clave cubre tambien Reddit, YouTube, Amazon, Walmart y TikTok desde un unico pool de creditos, y esa es la verdadera razon para hacer el descubrimiento aqui en vez de cablear un proveedor distinto por plataforma.
El sacrificio honesto
Una API SERP no sustituye al scraping. Si tu agente necesita el texto completo tras un login, o una pagina que solo se renderiza tras mucho JavaScript, sigues necesitando Firecrawl, Apify o Playwright. Scavio sustituye al scraping solo para datos publicos e indexados de SERP y redes sociales. No es un motor de extraccion para paginas arbitrarias.
Y si tu unico requisito es SERP de Google en bruto al precio mas bajo posible, Scavio no es el mas barato. DataForSEO ronda los 0,0006 $ por peticion, aunque exige un deposito minimo de 50 $ y su tarifa Standard mete cola. Serper anda por los 0,001 $ por peticion pero es solo Google. Ambos le ganan a Scavio en precio bruto si solo quieres Google y estas dispuesto a dejar un deposito.
Tambien existe una via legitima de gratis-pero-lo-mantienes-tu: Firecrawl autoalojado mas SearxNG te dan descubrimiento y extraccion sin factura por llamada, siempre que estes dispuesto a montar y cuidar esa infraestructura.
La ventaja de Scavio no es ser el mas barato por llamada. Es el descubrimiento multiplataforma bajo una sola clave y un solo pool de creditos, un pago por uso real sin deposito minimo ni suelo mensual, y JSON estructurado mas un MCP alojado en https://mcp.scavio.dev/mcp. Para un agente de investigacion que mezcla Google, Reddit y senal social, esa suele ser la forma mas barata y mas cuerda de resolver la mitad de descubrimiento del trabajo.