Définition
Le gonflement du contexte est l'accumulation de tokens dans la fenêtre de contexte d'un LLM avant que l'utilisateur n'ait rien demandé — généralement à cause des schémas d'outils MCP, des prompts système volumineux ou des résultats de récupération non filtrés — qui empiète sur l'espace nécessaire au raisonnement réel.
En profondeur
La plupart des frameworks d'agents chargent le schéma complet de chaque outil connecté dans le contexte au démarrage de la session. Une flotte de 10 serveurs MCP avec 8 outils chacun à 600 tokens par schéma brûle 48 000 tokens avant que tout travail ne commence. Le gonflement du contexte s'aggrave lorsque les étapes de récupération renvoient du HTML brut ou des pages SERP de 50 résultats au lieu d'extraits structurés réduits. Les correctifs standard de 2026 : des passerelles MCP qui compressent les descriptions d'outils, des API de recherche qui renvoient du JSON typé au lieu du HTML brut, et des harnais d'agents qui chargent paresseusement les schémas d'outils uniquement lorsque le modèle tente de les appeler.
Exemple d'utilisation
Après consolidation vers une passerelle MCP et passage du scraping HTML brut au JSON Scavio typé, le gonflement du contexte par tour de l'agent est passé de 50K tokens à moins de 8K, libérant de l'espace pour un raisonnement authentique.
Plateformes
Gonflement du contexte est pertinent sur les plateformes suivantes, toutes accessibles via l'API unifiée de Scavio :
Termes associés
Passerelle MCP
Une passerelle MCP (ou proxy MCP) est un serveur unique du Model Context Protocol qui sert de frontal pour plusieurs ser...
Architecture d'agent
L'architecture d'agent est l'ensemble des choix de conception qui transforment une invite LLM en un système de productio...
Ancrage des workflows LLM
L'ancrage des workflows LLM est le modèle qui consiste à injecter un contexte vérifié, frais et structuré — provenant d'...