Définition
Le scraping vs recherche pour RAG est la règle de décision pour construire de grands corpus RAG : scraper lorsque vous avez besoin du texte complet de pages déjà connues (notamment derrière authentification ou cibles lourdes en JS), rechercher lorsque vous pouvez exprimer le corpus sous forme de requêtes contre des sources publiques indexées et laisser une API SERP/Reddit/YouTube/Amazon renvoyer du JSON typé.
En profondeur
Un post r/Rag en mai 2026 demandait quel scraper web utiliser pour ~10M tokens d'articles techniques, docs, blogs et PDF. La réponse honnête en 2026 : la question a souvent la mauvaise forme. Pour les articles techniques + docs (bien indexés, bien structurés), l'approche la moins chère et la plus fiable est la recherche comme source — requêtes Scavio Google SERP sur les sujets souhaités, retourne les résultats organiques + extrait vedette + AI Overview sous forme de JSON typé, puis `extract` les top-N URLs en Markdown. Cela évite la plupart des douleurs du scraping (Cloudflare, changements de mise en page, infrastructure headless) tout en vous donnant les octets qui vont dans les embeddings. Pour le contenu éducatif PDF, la bonne forme est toujours le scraping + un analyseur PDF ; pour les cibles derrière authentification ou lourdes en JS, le scraping est inévitable. La différence de coût : 10M tokens via recherche comme source coûte typiquement 20-80 $ en crédits Scavio + extract ; via scraping fragile + infrastructure headless, c'est variable mais généralement plus élevé et plus lourd opérationnellement.
Exemple d'utilisation
Construction de corpus RAG pour le sujet 'infrastructure d'agents IA'. 200 requêtes initiales via Scavio Google → ~5 000 URLs uniques → top 2K via /extract → ~8M tokens de Markdown propre. Coût total Scavio ~50-90 $. Aucune maintenance de scraper, aucun rendu headless, JSON typé partout.
Plateformes
Scraping vs Recherche pour RAG est pertinent sur les plateformes suivantes, toutes accessibles via l'API unifiée de Scavio :