Définition
Un budget de tokens d'agent est une limite programmatique sur le nombre de tokens de contexte qu'un agent IA alloue aux résultats d'appels d'outils (en particulier les résultats de recherche) par session ou par tour, empêchant une croissance incontrôlée du contexte qui dégrade la qualité du raisonnement et augmente les coûts.
En profondeur
Sans budgets de tokens, un seul appel API de recherche peut injecter 2000 à 5000 tokens de résultats dans le contexte d'un agent. Un agent effectuant 5 recherches par session pourrait consommer 10 000 à 25 000 tokens rien que pour les résultats de recherche, laissant moins de contexte pour le raisonnement, la génération de code et l'historique de conversation. Les budgets de tokens fonctionnent à deux niveaux : les budgets par appel qui tronquent les résultats de recherche individuels (par exemple, max 300 tokens par recherche, en ne gardant que le titre + extrait + URL pour les 5 premiers résultats) et les budgets de session qui limitent la consommation totale de tokens de recherche. Les API de recherche structurée comme Scavio renvoient un JSON compact (titre, extrait, URL) qui est intrinsèquement plus efficace en tokens que le HTML brut ou l'extraction de page entière. Un résultat Scavio typique pour 10 résultats organiques utilise 600 à 800 tokens contre 4000 à 8000 tokens pour un contenu web brut équivalent. Mise en œuvre des budgets : compter les tokens dans les résultats de recherche à l'aide de tiktoken (Python) ou d'une approximation (caractères/4), tronquer au seuil du budget et suivre l'utilisation cumulative par session.
Exemple d'utilisation
Un développeur d'agent fixe un budget de 2000 tokens pour le contexte de recherche par session. Chaque recherche Scavio renvoie ~150 tokens de résultats structurés (5 résultats, titre + extrait). L'agent effectue 8 recherches utilisant 1200 tokens, bien dans le budget. Sans le budget, les mêmes 8 recherches utilisant une récupération brute du web auraient consommé 12 000 tokens.
Plateformes
Budget de tokens d'agent est pertinent sur les plateformes suivantes, toutes accessibles via l'API unifiée de Scavio :
Termes associés
Gonflement du contexte
Le gonflement du contexte est l'accumulation de tokens dans la fenêtre de contexte d'un LLM avant que l'utilisateur n'ai...
Tarification par crédits pour API
La tarification par crédits pour API est un modèle de facturation où les consommateurs d'API achètent un pool de crédits...
Extraction de contenu web MCP
L'extraction de contenu web MCP est le processus d'utilisation d'un serveur MCP pour récupérer des pages web et les conv...