ScavioScavio
ProduitTarifsDocumentation
ConnexionCommencer
  1. Accueil
  2. Tutoriels
  3. Comment construire un corpus RAG de 10M tokens avec Scavio (2026)
Tutoriel

Comment construire un corpus RAG de 10M tokens avec Scavio (2026)

Search-as-source : 200 requêtes seeds → Scavio Google → /extract top 2K → 8M tokens de Markdown propre. ~50-90$.

Obtenez une clé API gratuiteDocumentation API

Un post r/Rag demandait quel scraper utiliser pour ~10M tokens. La forme moins chère et plus fiable pour le contenu public indexé est search-as-source. Ceci décrit la recette.

Prérequis

  • Clé API Scavio
  • Python ou Node
  • Sujet avec 200 à 500 candidats de requêtes seeds
  • Pipeline d'embedding

Parcours

Étape 1: Définissez 200 à 500 requêtes seeds

Largeur thématique > profondeur.

Python
seeds = ['ai agent infrastructure 2026', 'agent memory patterns', 'tool use mcp', ...]

Étape 2: Scavio Google SERP par seed

Collectez les URL des organic_results.

Python
import requests, os
H = {'x-api-key': os.environ['SCAVIO_API_KEY']}
urls = set()
for q in seeds:
    r = requests.post('https://api.scavio.dev/api/v1/search', headers=H, json={'query': q}).json()
    for o in (r.get('organic_results') or [])[:10]:
        urls.add(o['link'])

Étape 3: Dédupliquez l'ensemble des URL

De nombreux seeds ramènent les mêmes pages faisant autorité.

Python
print(f'Unique URLs: {len(urls)}')

Étape 4: Scavio /extract sur les URL principales

Retourne du Markdown propre.

Python
docs = []
for u in list(urls)[:2000]:
    d = requests.post('https://api.scavio.dev/api/v1/extract', headers=H, json={'url': u}).json()
    if d.get('text'): docs.append({'url': u, 'text': d['text']})

Étape 5: Ajustement du budget de tokens

Arrêtez à 10M tokens.

Python
# Walk top-N until cumulative tokens hit 10M.

Étape 6: Embedez et envoyez au magasin vectoriel

Selon le pipeline existant.

Python
# Voyage / OpenAI / Cohere → Pinecone / Qdrant / pgvector.

Étape 7: Rafraîchissement trimestriel

Réexécution + diff des URL.

Python
# Cron: quarterly. Embed only new/changed pages.

Exemple Python

Python
# Total cost: ~11K credits ≈ $50-90 within Project tier.

Exemple JavaScript

JavaScript
// Same shape in TS.

Sortie attendue

JSON
10M-token RAG corpus from indexed public content. ~5K unique URLs → ~2K extracted → 8M tokens of clean Markdown.

Tutoriels associés

  • Comment construire un Mini-Perplexity avec des sources réelles (Vertical)

Questions fréquentes

La plupart des développeurs terminent ce tutoriel en 15 à 30 minutes. Vous aurez besoin d'une clé API Scavio (l'offre gratuite suffit) et d'un environnement Python ou JavaScript fonctionnel.

Clé API Scavio. Python ou Node. Sujet avec 200 à 500 candidats de requêtes seeds. Pipeline d'embedding. Une clé API Scavio vous donne 50 crédits gratuits à l'inscription.

Oui. L'offre gratuite comprend 50 crédits à l'inscription, ce qui est largement suffisant pour terminer ce tutoriel et prototyper une solution fonctionnelle.

Scavio dispose d'un package natif LangChain (langchain-scavio), d'un serveur MCP et d'une API REST simple qui fonctionne avec tout client HTTP. Ce tutoriel utilise the raw REST API, mais vous pouvez l'adapter à votre framework de prédilection.

Ressources connexes

Workflow

Flux de travail de construction du corpus RAG (10M tokens)

Read more
Glossary

Scraping vs Recherche pour RAG

Read more
Solution

Stack de construction de corpus RAG large (10M tokens)

Read more
Use Case

Construction d'un grand corpus RAG (10M tokens)

Read more
Best Of

Meilleurs outils pour la constitution de corpus RAG à grande échelle (2026)

Read more
Best Of

Meilleurs outils de sources de données RAG sans Firecrawl (2026)

Read more

Commencer

Search-as-source : 200 requêtes seeds → Scavio Google → /extract top 2K → 8M tokens de Markdown propre. ~50-90$.

Obtenez une clé API gratuiteLire la documentation
ScavioScavio

API de recherche en temps réel pour agents IA. Recherchez sur toutes les plateformes, pas seulement Google.

Produit

  • Fonctionnalités
  • Tarifs
  • Tableau de bord
  • Affiliés

Développeurs

  • Documentation
  • Référence API
  • Démarrage rapide
  • Intégration MCP
  • SDK Python

Alternatives

  • Alternative à Tavily
  • Alternative à SerpAPI
  • Alternative à Firecrawl
  • Alternative à Exa

Outils

  • Formateur JSON
  • cURL vers code
  • Compteur de jetons
  • Tous les outils

© 2026 Scavio. Tous droits réservés.

Featured on TAAFT
Conditions d'utilisationPolitique de confidentialité