Les agents LLM locaux sur Ollama, LM Studio ou llama.cpp utilisent des modèles avec des fenêtres de contexte de 4K à 32K, soit une fraction de celles des modèles cloud. Les résultats de recherche insérés dans ces petites fenêtres doivent être concis : des extraits structurés, pas des pages web entières. L'API doit également répondre assez rapidement pour que la boucle d'agent reste interactive. Nous avons comparé cinq API de recherche pour les constructeurs d'agents LLM locaux, en les classant selon la concision des réponses, la latence, la simplicité du JSON et le coût pour des sessions d'agent typiques de 20 à 50 recherches.
Scavio renvoie des résultats de recherche structurés et concis qui tiennent confortablement dans les fenêtres contextuelles des LLM locaux à $0.005/requête, avec un serveur MCP qui s'intègre directement aux modèles appelant des outils.
Classement complet
Scavio
Agents LLM locaux nécessitant une recherche concise multiplateforme dans de petites fenêtres de contexte
- Extraits concis adaptés aux fenêtres de contexte 4K-8K
- Serveur MCP pour intégration directe d'appels d'outils
- Recherche multiplateforme ajoute des données de référence diverses
- 250 crédits gratuits/mois pour les tests et l'usage léger d'agent
- Pas d'extraction de contenu complet de page pour une lecture approfondie
- Nécessite une configuration de clé API dans la config de l'agent local
- Pas de repli hors ligne pour les configurations isolées
Tavily
Agents LLM locaux utilisant LangChain avec le format de réponse axé sur les agents de Tavily
- Conçu pour la consommation LLM avec des résultats concis
- Extraction de contenu incluse, réduisant les appels supplémentaires
- 1 000 recherches gratuites/mois est généreux pour les agents locaux
- Intégration native LangChain
- L'acquisition par Nebius crée une incertitude sur le fournisseur
- Web uniquement, pas de recherche spécifique à une plateforme
- La taille des réponses avec contenu brut peut être grande pour les petits modèles
Serper.dev
Agents locaux ayant besoin de la recherche Google la moins chère avec un faible overhead de réponse
- Le moins cher par requête pour les résultats Google
- JSON de réponse minimal, faible empreinte de tokens
- Temps de réponse rapides pour les agents interactifs
- 2 500 crédits uniques gratuits
- Google uniquement, pas de référencement multiplateforme
- Les packs de crédits expirent dans 6 mois
- Aucune capacité d'extraction de contenu
SearXNG (auto-hébergé)
Configurations d'agents locaux souhaitant une recherche sur appareil sans appels API externes
- Coût nul par requête
- Fonctionne sur la même machine que le LLM local
- Aucune dépendance réseau pour les configurations entièrement locales
- Respectueux de la vie privée
- JSON de réponse incohérent selon les moteurs
- Nécessite Docker ou un serveur à côté du LLM
- La qualité des résultats varie considérablement
- Fardeau de maintenance
Exa
Agents locaux qui bénéficient de la recherche sémantique pour les tâches de recherche
- La recherche sémantique trouve des pages contextuellement pertinentes
- 1K recherches gratuites/mois
- Le mode deep fournit le contenu complet quand nécessaire
- Bon pour les agents de recherche locaux
- $7/1K est cher pour des agents locaux bavards
- Les réponses en mode deep sont trop volumineuses pour les petites fenêtres contextuelles
- Les résultats diffèrent de Google, moins prévisibles
Comparaison côte à côte
| Critères | Scavio | Finaliste | 3e place |
|---|---|---|---|
| Coût par session de 30 requêtes | $0.15 | $0.045 | $0.03 |
| Empreinte des tokens de réponse | Petite (extraits) | Moyenne (avec contenu) | Petite (extraits) |
| Intégration MCP/outils | Serveur MCP | Outil LangChain | REST (personnalisé) |
| Multiplateforme | 6 plateformes | Web uniquement | Google uniquement |
| Capable hors ligne | Non | Non | Non |
| Niveau gratuit | 250/mois | 1,000/mois | 2 500 unique |
Pourquoi Scavio gagne
- Le serveur MCP offre le chemin d'intégration le plus propre pour les modèles appelant des outils sur Ollama et LM Studio
- Les réponses concises basées sur des extraits évitent de submerger les petites fenêtres contextuelles que les modèles locaux ont généralement
- Tavily l'emporte pour les agents locaux utilisant LangChain où l'intégration native réduit le code personnalisé
- SearXNG l'emporte pour les configurations totalement hors ligne, axées sur la vie privée, où aucune dépendance réseau n'est requise
- Les 250 recherches gratuites mensuelles de Scavio sont moins généreuses que les 1K de Tavily ou les 1K d'Exa pour le développement d'agents