Construction du corpus RAG (10M tokens)

Aperçu

Flux de travail de recherche comme source pour construire un corpus RAG de 10M tokens à partir de contenu public indexé. Évite la plupart des désagréments du scraping.

Déclencheur

Construction par sujet (ponctuelle ou rafraîchissement trimestriel)

Planification

Par sujet (ponctuel ou trimestriel)

Étapes du workflow

Définir 200 à 500 requêtes de départ couvrant le sujet

La largeur thématique prime sur la profondeur des requêtes individuelles.

SERP Google Scavio par requête de départ

Collecter les URL des résultats organiques.

Dédupliquer l'ensemble des URL

De nombreuses requêtes de départ font remonter les mêmes pages faisant autorité.

Scavio /extract sur les 2000 premières URL

Renvoie un texte Markdown propre.

Réduction du budget de tokens

Arrêter à 10M de tokens ; privilégier les URL avec une autorité de domaine plus élevée.

Embedder et envoyer au magasin vectoriel

Selon votre pipeline d'embedding RAG existant.

Implémentation Python

Python

import requests, os
H = {'x-api-key': os.environ['SCAVIO_API_KEY']}

def build_corpus(seeds, per_query=10):
    urls = set()
    for q in seeds:
        r = requests.post('https://api.scavio.dev/api/v1/search', headers=H, json={'query': q}).json()
        for o in (r.get('organic_results') or [])[:per_query]:
            urls.add(o['link'])
    docs = []
    for u in list(urls)[:2000]:
        d = requests.post('https://api.scavio.dev/api/v1/extract', headers=H, json={'url': u}).json()
        if d.get('text'): docs.append(d['text'])
    return docs

Implémentation JavaScript

JavaScript

// Same shape in TS — search per seed, dedupe, extract top-N.

Plateformes utilisées

Google

Recherche web avec graphe de connaissances, PAA et aperçus IA

Questions fréquentes

Flux de travail de recherche comme source pour construire un corpus RAG de 10M tokens à partir de contenu public indexé. Évite la plupart des désagréments du scraping.

Ce workflow utilise un construction par sujet (ponctuelle ou rafraîchissement trimestriel). Par sujet (ponctuel ou trimestriel).

Ce workflow utilise les plateformes Scavio suivantes : google. Chaque plateforme est appelée via le même point de terminaison API unifié.

Oui. L'offre gratuite de Scavio comprend 50 crédits à l'inscription sans carte bancaire. Cela suffit pour tester et valider ce workflow avant de le passer à l'échelle.

Aperçu

Flux de travail de recherche comme source pour construire un corpus RAG de 10M tokens à partir de contenu public indexé. Évite la plupart des désagréments du scraping.

Déclencheur

Construction par sujet (ponctuelle ou rafraîchissement trimestriel)

Planification

Par sujet (ponctuel ou trimestriel)

Étapes du workflow

Définir 200 à 500 requêtes de départ couvrant le sujet

La largeur thématique prime sur la profondeur des requêtes individuelles.

SERP Google Scavio par requête de départ

Collecter les URL des résultats organiques.

Dédupliquer l'ensemble des URL

De nombreuses requêtes de départ font remonter les mêmes pages faisant autorité.

Scavio /extract sur les 2000 premières URL

Renvoie un texte Markdown propre.

Réduction du budget de tokens

Arrêter à 10M de tokens ; privilégier les URL avec une autorité de domaine plus élevée.

Embedder et envoyer au magasin vectoriel

Selon votre pipeline d'embedding RAG existant.

Implémentation Python

Python

import requests, os
H = {'x-api-key': os.environ['SCAVIO_API_KEY']}

def build_corpus(seeds, per_query=10):
    urls = set()
    for q in seeds:
        r = requests.post('https://api.scavio.dev/api/v1/search', headers=H, json={'query': q}).json()
        for o in (r.get('organic_results') or [])[:per_query]:
            urls.add(o['link'])
    docs = []
    for u in list(urls)[:2000]:
        d = requests.post('https://api.scavio.dev/api/v1/extract', headers=H, json={'url': u}).json()
        if d.get('text'): docs.append(d['text'])
    return docs

Questions fréquentes

Flux de travail de recherche comme source pour construire un corpus RAG de 10M tokens à partir de contenu public indexé. Évite la plupart des désagréments du scraping.

Ce workflow utilise un construction par sujet (ponctuelle ou rafraîchissement trimestriel). Par sujet (ponctuel ou trimestriel).

Ce workflow utilise les plateformes Scavio suivantes : google. Chaque plateforme est appelée via le même point de terminaison API unifié.

Oui. L'offre gratuite de Scavio comprend 50 crédits à l'inscription sans carte bancaire. Cela suffit pour tester et valider ce workflow avant de le passer à l'échelle.

Flux de travail de construction du corpus RAG (10M tokens)

Aperçu

Déclencheur

Planification

Étapes du workflow

Définir 200 à 500 requêtes de départ couvrant le sujet

SERP Google Scavio par requête de départ

Dédupliquer l'ensemble des URL

Scavio /extract sur les 2000 premières URL

Réduction du budget de tokens

Embedder et envoyer au magasin vectoriel

Implémentation Python

Implémentation JavaScript

Plateformes utilisées

Google

Questions fréquentes

Que fait le workflow Flux de travail de construction du corpus RAG (10M tokens) ?

Comment ce workflow est-il déclenché ?

Quelles plateformes Scavio ce workflow utilise-t-il ?

Puis-je exécuter ce workflow avec l'offre gratuite ?

Flux de travail de construction du corpus RAG (10M tokens)

Flux de travail de construction du corpus RAG (10M tokens)

Aperçu

Déclencheur

Planification

Étapes du workflow

Définir 200 à 500 requêtes de départ couvrant le sujet

SERP Google Scavio par requête de départ

Dédupliquer l'ensemble des URL

Scavio /extract sur les 2000 premières URL

Réduction du budget de tokens

Embedder et envoyer au magasin vectoriel

Implémentation Python

Implémentation JavaScript

Plateformes utilisées

Google

Questions fréquentes

Que fait le workflow Flux de travail de construction du corpus RAG (10M tokens) ?

Comment ce workflow est-il déclenché ?

Quelles plateformes Scavio ce workflow utilise-t-il ?

Puis-je exécuter ce workflow avec l'offre gratuite ?

Flux de travail de construction du corpus RAG (10M tokens)