Définition
L'optimisation des tokens d'agent consiste à minimiser le nombre de tokens consommés lorsqu'un agent LLM traite des résultats de recherche web, réduisant ainsi à la fois la latence et le coût API par réponse basée sur la recherche.
En profondeur
Lorsqu'un agent IA appelle un outil de recherche web, les résultats de recherche sont injectés dans la fenêtre de contexte du LLM sous forme de tokens. Une page SERP Google typique renvoie 10 résultats organiques avec titres, URL et extraits -- environ 800 à 1 200 tokens. L'ajout des données « Les gens demandent aussi », du graphe de connaissances et de l'AI Overview peut porter ce chiffre à 2 000-3 000 tokens par appel de recherche. Au tarif Claude Sonnet, chaque injection de résultat de recherche coûte entre 0,009 $ et 0,027 $ rien que pour les tokens d'entrée, en plus du coût de l'API de recherche (0,005 $/requête sur Scavio, 0,008 $/crédit sur Tavily). Stratégies d'optimisation : (1) demander moins de résultats (5 au lieu de 10 économise ~500 tokens), (2) supprimer les URL et métadonnées dont l'agent n'a pas besoin, (3) utiliser des champs JSON structurés au lieu d'extraits HTML bruts, (4) mettre en cache les requêtes répétées pour éviter les appels redondants. Le gonflement du schéma des outils MCP est une autre source : un outil de recherche avec 15 paramètres facultatifs ajoute ~200 tokens à chaque tour d'agent, même lorsqu'il n'est pas appelé. Élaguer le schéma aux paramètres essentiels (requête, plateforme, nombre) réduit cette surcharge. Les équipes exploitant des agents à grande échelle rapportent une réduction de 30 à 40 % des tokens grâce à ces optimisations, ce qui se traduit par des économies mesurables à partir de 10 000+ invocations d'agents par mois.
Exemple d'utilisation
Un agent de support client effectue 3 appels de recherche par résolution de ticket, traitant 50 tickets/jour. Avant optimisation : 2 500 tokens par recherche x 3 recherches x 50 tickets = 375K tokens d'entrée/jour (1,13 $/jour aux tarifs Claude Sonnet). Après optimisation (5 résultats au lieu de 10, métadonnées supprimées, élagage du schéma) : 1 400 tokens par recherche x 3 x 50 = 210K tokens/jour (0,63 $/jour). Économies mensuelles : 15 $ rien que sur les coûts LLM, plus des temps de réponse plus rapides.
Plateformes
Optimisation des tokens d'agent est pertinent sur les plateformes suivantes, toutes accessibles via l'API unifiée de Scavio :
Termes associés
Gonflement du schéma d'outils MCP
Le gonflement du schéma d'outils MCP est la consommation excessive de tokens de contexte d'agent par les schémas de défi...
Budget de tokens d'agent
Un budget de tokens d'agent est une limite programmatique sur le nombre de tokens de contexte qu'un agent IA alloue aux ...