Servez-vous d'une API de recherche structuree pour la decouverte et pour toute donnee publique deja indexee, et ne sortez le scraper que pour les pages cachees derriere un login ou qui exigent un vrai navigateur pour s'afficher. Ce partage est la maniere la moins chere et la plus fiable de batir un agent de recherche en 2026, et la plupart des equipes y arrivent a la dure.
Le schema revient sans cesse. Un fil r/AI_Agents le disait crument : "Les agents de recherche massacrent mon budget en scraping. Quel stack utilisent les gens en ce moment ?" Le stack decrit dans les commentaires ressemblait a ceci : un orchestrateur qui deploie trois a cinq drones de recherche (Brave, Tavily, DDG), puis Firecrawl pour l'extraction, et Playwright en dernier recours quand un site resistait. La douleur citee etait toujours la meme : les defis Cloudflare et la facture des proxys residentiels.
D'abord decouvrir, ensuite extraire
La raison pour laquelle ces deux etapes marchent n'a rien de subtil. Quelqu'un sur r/LocalLLM l'a mieux dit que moi : "des qu'on separe la decouverte de l'extraction, un tas de cas tordus disparaissent tout seuls", et "cherche d'abord, extrais ensuite... l'ecart de fiabilite face a un scraping en un seul passage est dingue".
Voici pourquoi. La decouverte est un probleme de donnees structurees. Vous voulez une liste classee d'URL, de titres, d'extraits et de questions liees pour une requete. Ces donnees sont deja indexees et servies en JSON propre par une API SERP. Pas besoin de navigateur headless, de pool de proxys ni de contournement Cloudflare. L'extraction est un autre probleme : tirer le texte complet des quelques pages que votre agent a vraiment decide de lire. C'est la que le scraper gagne sa place.
Quand une equipe saute la decouverte et atteint ses URL a coups de scraping, elle brule de l'argent et de la fiabilite sur un travail qu'une API SERP fait pour une fraction du cout. Une grosse part de ce que les gens appellent leur "facture de scraping" est en realite de la decouverte deguisee.
Le calcul de cout
Chiffrons. Firecrawl est gratuit jusqu'a 1 000 credits par mois, puis le plan Hobby coute 16 $/mois (facture a l'annee) pour 5 000 credits et 5 taches en parallele. Il facture 1 credit par page, et sa fonction Search coute 2 credits pour 10 resultats. Firecrawl est un bon outil d'extraction, mais utiliser son Search pour piloter la decouverte revient a depenser des credits d'extraction pour trouver des liens.
Exa Search coute 0,007 $ par requete (7 $ pour 1 000). La SERP Google de Scavio, c'est 1 credit en requete legere, soit a 0,005 $ le credit 0,005 $ par requete ; la SERP complete avec light_request=false fait 2 credits (0,01 $). Pour de la pure decouverte, la requete legere suffit presque toujours.
La forme compte plus que le prix par appel. Si votre agent lance mille recherches et n'extrait que les vingt pages qui paraissent vraiment pertinentes, vous payez le prix SERP pour les mille et le prix d'extraction pour les vingt, au lieu de payer le prix scraper pour tout et de vous battre avec des proxys du debut a la fin.
Decouvrir avec un appel SERP Scavio
Ceci renvoie une liste classee que votre agent peut prioriser, filtrer et exploiter selectivement :
import os, requests
H = {"Authorization": f"Bearer {os.environ['SCAVIO_API_KEY']}", "Content-Type": "application/json"}
r = requests.post("https://api.scavio.dev/api/v1/google", headers=H,
json={"query": "best serp api", "light_request": False})
data = r.json()
for row in data["organic_results"]:
print(row["position"], row["title"], row["link"])Vous recuperez organic_results, people_also_ask, knowledge_graph et related_searches en JSON structure. Pas de pool de proxys, pas de bagarre avec Cloudflare. (Scavio ne renvoie pas les AI Overviews de Google, ne batissez donc rien dessus.) La meme cle couvre aussi Reddit, YouTube, Amazon, Walmart et TikTok depuis un seul pool de credits, et c'est la vraie raison de faire passer la decouverte par la plutot que de cabler un fournisseur different par plateforme.
Le compromis honnete
Une API SERP ne remplace pas le scraping. Si votre agent a besoin du texte complet derriere un login, ou d'une page qui ne s'affiche qu'apres beaucoup de JavaScript, il vous faut toujours Firecrawl, Apify ou Playwright. Scavio ne remplace le scraping que pour les donnees publiques indexees de SERP et de reseaux sociaux. Ce n'est pas un moteur d'extraction pour des pages quelconques.
Et si votre seul besoin est de la SERP Google brute au prix le plus bas possible, Scavio n'est pas le moins cher. DataForSEO tourne autour de 0,0006 $ par requete, mais exige un depot minimum de 50 $ et sa tarif Standard fait la queue. Serper est autour de 0,001 $ par requete mais reste Google uniquement. Les deux battent Scavio sur le prix brut si vous ne voulez que Google et acceptez de poser un depot.
Il existe aussi une voie legitime gratuite-mais-a-maintenir-soi-meme : Firecrawl auto-heberge plus SearxNG vous donnent decouverte et extraction sans facture par appel, tant que vous acceptez de faire tourner et de surveiller l'infrastructure.
L'atout de Scavio n'est pas d'etre le moins cher par appel. C'est la decouverte multi-plateforme sous une seule cle et un seul pool de credits, un vrai paiement a l'usage sans depot minimum ni plancher mensuel, et du JSON structure avec un MCP heberge sur https://mcp.scavio.dev/mcp. Pour un agent de recherche qui melange Google, Reddit et signal social, c'est en general la maniere la moins chere et la plus saine de gerer la moitie decouverte du travail.