Aperçu
Flux de travail de recherche comme source pour construire un corpus RAG de 10M tokens à partir de contenu public indexé. Évite la plupart des désagréments du scraping.
Déclencheur
Construction par sujet (ponctuelle ou rafraîchissement trimestriel)
Planification
Par sujet (ponctuel ou trimestriel)
Étapes du workflow
Définir 200 à 500 requêtes de départ couvrant le sujet
La largeur thématique prime sur la profondeur des requêtes individuelles.
SERP Google Scavio par requête de départ
Collecter les URL des résultats organiques.
Dédupliquer l'ensemble des URL
De nombreuses requêtes de départ font remonter les mêmes pages faisant autorité.
Scavio /extract sur les 2000 premières URL
Renvoie un texte Markdown propre.
Réduction du budget de tokens
Arrêter à 10M de tokens ; privilégier les URL avec une autorité de domaine plus élevée.
Embedder et envoyer au magasin vectoriel
Selon votre pipeline d'embedding RAG existant.
Implémentation Python
import requests, os
H = {'x-api-key': os.environ['SCAVIO_API_KEY']}
def build_corpus(seeds, per_query=10):
urls = set()
for q in seeds:
r = requests.post('https://api.scavio.dev/api/v1/search', headers=H, json={'query': q}).json()
for o in (r.get('organic_results') or [])[:per_query]:
urls.add(o['link'])
docs = []
for u in list(urls)[:2000]:
d = requests.post('https://api.scavio.dev/api/v1/extract', headers=H, json={'url': u}).json()
if d.get('text'): docs.append(d['text'])
return docsImplémentation JavaScript
// Same shape in TS — search per seed, dedupe, extract top-N.Plateformes utilisées
Recherche web avec graphe de connaissances, PAA et aperçus IA