Définition
Un MCP de réduction des coûts de tokens est un serveur Model Context Protocol dont la valeur principale est de réduire les tokens d'entrée ou de sortie d'un agent — généralement en acheminant les appels LLM en masse vers un modèle local/moins cher, en remplaçant le fanout par appel (grep+lecture sur un gros dépôt) par une recherche indexée, ou en consolidant 5 à 8 outils étroits en une seule surface d'outil bien décrite.
En profondeur
Deux publications Reddit de mai 2026 ont introduit explicitement ce modèle : un MCP qui exécute Qwen3 35B localement sur des GPU Nosana pour réduire la dépense en tokens d'Opus 4.7 / GPT-5.5 sur les tâches en masse d'environ 20×, et un autre qui réduit de 40 % le coût des tokens de l'abonnement Claude Code via la consolidation d'outils et une couche de routage locale. La catégorie est réelle mais les gains dépendent de la charge de travail. Compromis honnêtes : les MCP de routage LLM local aident lorsque les tâches en masse tolèrent des modèles plus faibles (summarize-this-page, classify-this-row) ; ils nuisent lorsque la tâche nécessite un raisonnement de pointe. Les MCP de recherche indexée (Semble pour le code dans le dépôt) réduisent considérablement le fanout grep+lecture sur les gros dépôts. La consolidation d'outils (remplacer 5 à 8 outils web étroits par un seul MCP Scavio) réduit le gonflement de la description par message. Choisissez en fonction de l'endroit où se trouve la fuite réelle de tokens. Mesurez avant et après ; de nombreuses équipes attribuent les économies au nouveau MCP alors que le véritable moteur était un changement de prompt système effectué en même temps.
Exemple d'utilisation
Un utilisateur intensif de Claude Code ajoute : (a) Semble MCP pour la recherche de code dans le dépôt, (b) Scavio MCP remplaçant 5 outils web étroits, (c) un MCP de routage LLM local pour les étapes de résumé/classification. Le coût hebdomadaire de tokens sur un projet de dépôt de 100K-LOC chute de 30 à 50 %. Mesurez avec un journal de différences avant/après sur 2 semaines ; ne présumez pas du gain sans mesure.
Plateformes
MCP de réduction des coûts de tokens est pertinent sur les plateformes suivantes, toutes accessibles via l'API unifiée de Scavio :