ScavioScavio
ProduitTarifsDocumentation
ConnexionCommencer
  1. Accueil
  2. Workflows
  3. Flux de travail de construction du corpus RAG (10M tokens)
Workflow

Flux de travail de construction du corpus RAG (10M tokens)

200 requêtes de départ → Scavio Google → déduplication des URL → Scavio /extract → 8M tokens de Markdown propre. ~50-90 $.

Commencez gratuitementDocumentation API

Aperçu

Flux de travail de recherche comme source pour construire un corpus RAG de 10M tokens à partir de contenu public indexé. Évite la plupart des désagréments du scraping.

Déclencheur

Construction par sujet (ponctuelle ou rafraîchissement trimestriel)

Planification

Par sujet (ponctuel ou trimestriel)

Étapes du workflow

1

Définir 200 à 500 requêtes de départ couvrant le sujet

La largeur thématique prime sur la profondeur des requêtes individuelles.

2

SERP Google Scavio par requête de départ

Collecter les URL des résultats organiques.

3

Dédupliquer l'ensemble des URL

De nombreuses requêtes de départ font remonter les mêmes pages faisant autorité.

4

Scavio /extract sur les 2000 premières URL

Renvoie un texte Markdown propre.

5

Réduction du budget de tokens

Arrêter à 10M de tokens ; privilégier les URL avec une autorité de domaine plus élevée.

6

Embedder et envoyer au magasin vectoriel

Selon votre pipeline d'embedding RAG existant.

Implémentation Python

Python
import requests, os
H = {'x-api-key': os.environ['SCAVIO_API_KEY']}

def build_corpus(seeds, per_query=10):
    urls = set()
    for q in seeds:
        r = requests.post('https://api.scavio.dev/api/v1/search', headers=H, json={'query': q}).json()
        for o in (r.get('organic_results') or [])[:per_query]:
            urls.add(o['link'])
    docs = []
    for u in list(urls)[:2000]:
        d = requests.post('https://api.scavio.dev/api/v1/extract', headers=H, json={'url': u}).json()
        if d.get('text'): docs.append(d['text'])
    return docs

Implémentation JavaScript

JavaScript
// Same shape in TS — search per seed, dedupe, extract top-N.

Plateformes utilisées

Google

Recherche web avec graphe de connaissances, PAA et aperçus IA

Questions fréquentes

Flux de travail de recherche comme source pour construire un corpus RAG de 10M tokens à partir de contenu public indexé. Évite la plupart des désagréments du scraping.

Ce workflow utilise un construction par sujet (ponctuelle ou rafraîchissement trimestriel). Par sujet (ponctuel ou trimestriel).

Ce workflow utilise les plateformes Scavio suivantes : google. Chaque plateforme est appelée via le même point de terminaison API unifié.

Oui. L'offre gratuite de Scavio comprend 50 crédits à l'inscription sans carte bancaire. Cela suffit pour tester et valider ce workflow avant de le passer à l'échelle.

Flux de travail de construction du corpus RAG (10M tokens)

200 requêtes de départ → Scavio Google → déduplication des URL → Scavio /extract → 8M tokens de Markdown propre. ~50-90 $.

Obtenez votre clé APILire la documentation
ScavioScavio

API de recherche en temps réel pour agents IA. Recherchez sur toutes les plateformes, pas seulement Google.

Produit

  • Fonctionnalités
  • Tarifs
  • Tableau de bord
  • Affiliés

Développeurs

  • Documentation
  • Référence API
  • Démarrage rapide
  • Intégration MCP
  • SDK Python

Alternatives

  • Alternative à Tavily
  • Alternative à SerpAPI
  • Alternative à Firecrawl
  • Alternative à Exa

Outils

  • Formateur JSON
  • cURL vers code
  • Compteur de jetons
  • Tous les outils

© 2026 Scavio. Tous droits réservés.

Featured on TAAFT
Conditions d'utilisationPolitique de confidentialité