Définition
L'extraction de contenu web MCP est le processus d'utilisation d'un serveur MCP pour récupérer des pages web et les convertir en Markdown propre ou en texte structuré, en supprimant la navigation, les publicités, les scripts et les éléments redondants afin de réduire la consommation de jetons lors de l'envoi de contenu web aux agents LLM.
En profondeur
Les pages web brutes contiennent 70 à 90 % de contenu redondant (navigation, pieds de page, publicités, scripts de suivi) qui gaspille les jetons de contexte de l'agent. Les serveurs d'extraction MCP (PullMD, Firecrawl MCP, endpoint /extract de Scavio) convertissent les URLs en contenu propre. Les options auto-hébergées comme PullMD donnent un contrôle total sur les règles d'extraction et la mise en cache. Les options hébergées comme l'endpoint extract de Scavio (0,005 $/appel) gèrent le rendu JavaScript sans infrastructure locale. Les économies de jetons sont substantielles : une page web typique qui consommerait 8 000 jetons en HTML brut pourrait produire 1 500 à 2 000 jetons de Markdown propre. Pour les agents effectuant plusieurs recherches web par session, cette réduction de 60 à 80 % se traduit directement par des coûts LLM plus faibles et plus de contexte disponible pour le raisonnement. Le compromis entre extraction auto-hébergée et hébergée est le contrôle contre la maintenance : l'auto-hébergement permet de personnaliser les règles d'extraction par domaine mais nécessite de gérer le serveur et de mettre à jour les analyseurs lorsque les sites changent.
Exemple d'utilisation
Un agent Claude Code doit lire la documentation de 5 URLs lors d'une tâche de codage. Sans extraction, le HTML brut consommerait 40 000 jetons (8K par page). Avec l'extraction PullMD ou Scavio, le Markdown propre utilise 10 000 jetons au total. L'agent dispose de 30 000 jetons supplémentaires pour la génération de code et le raisonnement.
Plateformes
Extraction de contenu web MCP est pertinent sur les plateformes suivantes, toutes accessibles via l'API unifiée de Scavio :
Termes associés
Protocole de Contexte de Modèle (MCP)
Le Protocole de Contexte de Modèle (MCP) est un standard ouvert qui définit comment les grands modèles de langage découv...
Gonflement du contexte
Le gonflement du contexte est l'accumulation de tokens dans la fenêtre de contexte d'un LLM avant que l'utilisateur n'ai...
Coût du navigateur headless
Le coût du navigateur headless est le coût total par requête d'une instance Chromium en mode headless pour le scraping, ...