ScavioScavio
ProduitTarifsDocumentation
ConnexionCommencer
  1. Accueil
  2. Workflows
  3. Workflow n8n de pagination de répertoire et d'extraction de données
Workflow

Workflow n8n de pagination de répertoire et d'extraction de données

Automatiser le scraping paginé de répertoires via n8n. Rechercher les répertoires d'entreprises page par page, extraire les données des entreprises et dédupliquer dans une liste maîtresse.

Commencez gratuitementDocumentation API

Aperçu

Les répertoires en ligne comme Clutch, G2 et Capterra ont des centaines de pages d'annonces. La navigation manuelle est lente et incomplète. Ce workflow n8n automatise les requêtes de recherche paginées pour extraire toutes les annonces d'une catégorie, déduplique les résultats et construit une liste maîtresse de prospects. Chaque page de résultats de recherche coûte 0,005 $.

Déclencheur

Cron hebdomadaire le lundi à 3h00 UTC ou à la demande pour de nouvelles catégories.

Planification

Hebdomadaire (lundi 3h00 UTC)

Étapes du workflow

1

Configurer les cibles de répertoire et de catégorie

Définir les répertoires à rechercher et les catégories à extraire. Chaque cible inclut le domaine du répertoire et les mots-clés de catégorie.

2

Exécuter des requêtes de recherche paginées

Pour chaque paire répertoire-catégorie, exécuter plusieurs requêtes de recherche avec des décalages de page pour capturer toutes les annonces. Continuer jusqu'à ce que les résultats soient vides ou que le nombre maximal de pages soit atteint.

3

Extraire les données des entreprises à partir des résultats

Analyser les noms d'entreprise, descriptions et URLs des résultats organiques. Extraire des signaux supplémentaires des extraits (notes, nombre d'avis, spécialités).

4

Dédupliquer par rapport à la liste maîtresse

Comparer les nouveaux résultats à la liste maîtresse existante. Ajouter uniquement les nouvelles entreprises. Marquer les entreprises qui sont apparues lors des exécutions précédentes mais qui sont maintenant absentes.

5

Exporter vers Google Sheets ou CRM

Ajouter les nouvelles entreprises à la feuille de calcul maîtresse ou créer de nouveaux contacts CRM. Étiqueter avec la source du répertoire, la catégorie et la date d'extraction.

Implémentation Python

Python
import requests, os, json

API_KEY = os.environ["SCAVIO_API_KEY"]

def paginated_directory_search(directory: str, category: str, max_pages: int = 5) -> list:
    """Search a directory with pagination."""
    all_results = []
    for page in range(max_pages):
        resp = requests.post(
            "https://api.scavio.dev/api/v1/search",
            headers={"x-api-key": API_KEY, "Content-Type": "application/json"},
            json={"query": f"site:{directory} {category}", "country_code": "us", "start": page * 10},
            timeout=15,
        )
        data = resp.json()
        results = data.get("organic_results", [])
        if not results:
            break
        for r in results:
            all_results.append({"title": r.get("title", ""), "url": r.get("link", ""), "snippet": r.get("snippet", "")})
    # Deduplicate by URL
    seen = set()
    unique = []
    for r in all_results:
        if r["url"] not in seen:
            seen.add(r["url"])
            unique.append(r)
    return unique

listings = paginated_directory_search("clutch.co", "seo agencies", max_pages=5)
print(f"Extracted {len(listings)} unique listings from Clutch")

Implémentation JavaScript

JavaScript
const H = {'x-api-key': process.env.SCAVIO_API_KEY, 'Content-Type': 'application/json'};
async function paginatedSearch(directory, category, maxPages=5) {
  const all = [];
  for (let page=0; page<maxPages; page++) {
    const r = await fetch('https://api.scavio.dev/api/v1/search', {method:'POST', headers:H, body:JSON.stringify({query:'site:'+directory+' '+category, country_code:'us', start:page*10})});
    const d = await r.json();
    if (!(d.organic_results||[]).length) break;
    d.organic_results.forEach(r => all.push({title:r.title, url:r.link, snippet:r.snippet}));
  }
  const seen = new Set();
  return all.filter(r => { if (seen.has(r.url)) return false; seen.add(r.url); return true; });
}
const listings = await paginatedSearch('clutch.co', 'seo agencies', 5);
console.log(listings.length + ' unique listings extracted');

Plateformes utilisées

Google

Recherche web avec graphe de connaissances, PAA et aperçus IA

Questions fréquentes

Les répertoires en ligne comme Clutch, G2 et Capterra ont des centaines de pages d'annonces. La navigation manuelle est lente et incomplète. Ce workflow n8n automatise les requêtes de recherche paginées pour extraire toutes les annonces d'une catégorie, déduplique les résultats et construit une liste maîtresse de prospects. Chaque page de résultats de recherche coûte 0,005 $.

Ce workflow utilise un cron hebdomadaire le lundi à 3h00 utc ou à la demande pour de nouvelles catégories.. Hebdomadaire (lundi 3h00 UTC).

Ce workflow utilise les plateformes Scavio suivantes : google. Chaque plateforme est appelée via le même point de terminaison API unifié.

Oui. L'offre gratuite de Scavio comprend 50 crédits à l'inscription sans carte bancaire. Cela suffit pour tester et valider ce workflow avant de le passer à l'échelle.

Workflow n8n de pagination de répertoire et d'extraction de données

Automatiser le scraping paginé de répertoires via n8n. Rechercher les répertoires d'entreprises page par page, extraire les données des entreprises et dédupliquer dans une liste maîtresse.

Obtenez votre clé APILire la documentation
ScavioScavio

API de recherche en temps réel pour agents IA. Recherchez sur toutes les plateformes, pas seulement Google.

Produit

  • Fonctionnalités
  • Tarifs
  • Tableau de bord
  • Affiliés

Développeurs

  • Documentation
  • Référence API
  • Démarrage rapide
  • Intégration MCP
  • SDK Python

Alternatives

  • Alternative à Tavily
  • Alternative à SerpAPI
  • Alternative à Firecrawl
  • Alternative à Exa

Outils

  • Formateur JSON
  • cURL vers code
  • Compteur de jetons
  • Tous les outils

© 2026 Scavio. Tous droits réservés.

Featured on TAAFT
Conditions d'utilisationPolitique de confidentialité