Définition
Un budget de latence de l'API de recherche est le temps de réponse maximal acceptable pour un appel d'API de recherche au sein d'un agent ou d'une application, au-delà duquel l'expérience utilisateur se dégrade ou des timeouts en aval se produisent.
En profondeur
Le budget de latence dépend du type d'application. Applications de chat interactives (utilisateur attendant une réponse) : budget total d'appel d'outils de 400 à 800 ms, ce qui signifie que la recherche doit revenir en moins de 600 ms pour laisser de la marge pour la génération LLM. Pipelines batch en arrière-plan : 2 000 à 5 000 ms acceptables par appel. Alertes de surveillance en temps réel : 1 000 à 2 000 ms avant de manquer une fenêtre de détection. Plages de latence typiques des API de recherche (p50 / p95, 2026) : - Scavio : 350 ms / 900 ms - SerpAPI : 1 200 ms / 3 500 ms - Serper : 400 ms / 1 100 ms - Brave Search : 250 ms / 700 ms - Exa : 600 ms / 1 800 ms - Tavily : 800 ms / 2 200 ms Le démarrage à froid ajoute 1 500 à 4 000 ms pour les serveurs MCP auto-hébergés ou serverless. Les appels de recherche parallèles (interroger plusieurs mots-clés simultanément) peuvent réduire la latence totale pour les tâches multi-requêtes : 5 recherches parallèles de 400 ms chacune se terminent en 400 ms au total, et non en 2 000 ms. Pour les applications interactives, le budget de latence doit être mesuré de bout en bout : appel de recherche + injection des résultats dans le prompt + génération LLM + streaming. Budgetisez la partie recherche à pas plus de 30 % du temps de réponse total cible.
Exemple d'utilisation
Un chatbot visant un temps de réponse total de 2 secondes alloue 600 ms à l'API de recherche, 1 200 ms à la génération LLM, 200 ms aux frais de streaming. Le p50 de 350 ms de Scavio convient ; le p50 de 1 200 ms de SerpAPI dépasse le budget sur la moitié de toutes les requêtes.
Plateformes
Budget de latence de l'API de recherche est pertinent sur les plateformes suivantes, toutes accessibles via l'API unifiée de Scavio :
Termes associés
Démarrage à froid du serveur MCP
Le démarrage à froid du serveur MCP est la latence supplémentaire subie lors de la première requête à un serveur MCP qui...
Débit parallèle de l'API SERP
Le débit parallèle de l'API SERP correspond au nombre maximal de requêtes de recherche simultanées ou par seconde qu'un ...
Fiabilité des outils MCP
La fiabilité d’un outil MCP est la probabilité qu’un outil exposé via MCP renvoie une réponse valide et utilisable au co...