Combien de temps dure ce tutoriel comment réduire l'utilisation des tokens llm avec la recherche structurée ?

La plupart des développeurs terminent ce tutoriel en 15 à 30 minutes. Vous aurez besoin d'une clé API Scavio (l'offre gratuite suffit) et d'un environnement Python ou JavaScript fonctionnel.

De quoi ai-je besoin avant de commencer ?

Un agent existant qui récupère des pages web pour obtenir des informations. Python 3.8+ ou Node.js 18+. Une clé API Scavio. Une clé API Scavio vous donne 50 crédits gratuits à l'inscription.

Puis-je suivre ce tutoriel avec l'offre gratuite ?

Oui. L'offre gratuite comprend 50 crédits à l'inscription, ce qui est largement suffisant pour terminer ce tutoriel et prototyper une solution fonctionnelle.

Avec quels frameworks cela fonctionne-t-il ?

Scavio dispose d'un package natif LangChain (langchain-scavio), d'un serveur MCP et d'une API REST simple qui fonctionne avec tout client HTTP. Ce tutoriel utilise the raw REST API, mais vous pouvez l'adapter à votre framework de prédilection.

Réduire l'utilisation des tokens LLM avec la recherche structurée (2026)

Les agents qui récupèrent des pages web brutes consomment des milliers de tokens en analysant le HTML pour trouver quelques faits. Les API de recherche structurée ne renvoient que les données pertinentes (titre, extrait, URL) en 150 à 300 tokens par requête. Ce tutoriel montre comment remplacer la récupération de pages par une recherche structurée pour réduire les coûts en tokens de 80 à 90 %.

Prérequis

Un agent existant qui récupère des pages web pour obtenir des informations
Python 3.8+ ou Node.js 18+
Une clé API Scavio

Parcours

Étape 1: Mesurer l'utilisation actuelle des tokens

Calculez combien de tokens votre approche actuelle de récupération web utilise par recherche.

Python

import tiktoken

# Typical raw web page fetch (e.g., via requests + BeautifulSoup or Fetch MCP):
raw_page_tokens = 5000  # Average web page after HTML stripping
useful_tokens = 200  # What the LLM actually needs from that page
waste_ratio = (raw_page_tokens - useful_tokens) / raw_page_tokens
print(f'Current waste: {waste_ratio:.0%} of tokens are unused context')
# Output: Current waste: 96% of tokens are unused context

# With structured search API:
structured_tokens = 250  # Average Scavio response (5 results)
print(f'Structured approach: {structured_tokens} tokens per search')
print(f'Savings: {(raw_page_tokens - structured_tokens) / raw_page_tokens:.0%}')
# Output: Savings: 95%

Étape 2: Remplacer la récupération et l'analyse par une recherche

Remplacez la récupération de pages web par un appel API de recherche structurée.

Python

import requests, os

H = {'x-api-key': os.environ['SCAVIO_API_KEY'], 'Content-Type': 'application/json'}

# BEFORE: Fetch full page and extract info (5000+ tokens)
# page = requests.get(url).text
# soup = BeautifulSoup(page, 'html.parser')
# text = soup.get_text()[:3000]  # Still 1000+ tokens

# AFTER: Get structured results (250 tokens)
def efficient_search(query: str) -> str:
    resp = requests.post('https://api.scavio.dev/api/v1/search', headers=H,
        json={'platform': 'google', 'query': query}, timeout=10)
    results = resp.json().get('organic', [])[:5]
    # Return only what the LLM needs
    return '\n'.join(f"{r['title']}: {r.get('snippet','')}" for r in results)

Étape 3: Définir des budgets de tokens par appel d'outil

Configurez votre agent pour appliquer des limites de tokens sur les résultats de recherche.

Python

MAX_SEARCH_TOKENS = 500  # Hard limit per search tool call

def budget_search(query: str, max_tokens: int = MAX_SEARCH_TOKENS) -> str:
    resp = requests.post('https://api.scavio.dev/api/v1/search', headers=H,
        json={'platform': 'google', 'query': query}, timeout=10)
    results = resp.json().get('organic', [])[:5]
    
    output_lines = []
    token_count = 0
    enc = tiktoken.encoding_for_model('gpt-4')
    
    for r in results:
        line = f"{r['title']}: {r.get('snippet','')}"
        line_tokens = len(enc.encode(line))
        if token_count + line_tokens > max_tokens:
            break
        output_lines.append(line)
        token_count += line_tokens
    
    return '\n'.join(output_lines)

Étape 4: Calculer les économies de coûts

Comparez la différence de coût en tokens entre les approches.

Python

# Cost comparison (Claude Sonnet 4.6 pricing):
input_cost_per_1m = 3.0  # $3/M input tokens

# Old approach: 5000 tokens/search * 100 searches/day = 500K tokens/day
old_daily_cost = (500_000 / 1_000_000) * input_cost_per_1m
print(f'Old approach: ${old_daily_cost:.2f}/day ({500_000} tokens)')

# New approach: 250 tokens/search * 100 searches/day = 25K tokens/day
new_daily_cost = (25_000 / 1_000_000) * input_cost_per_1m
print(f'New approach: ${new_daily_cost:.4f}/day ({25_000} tokens)')

# Plus Scavio API cost: 100 searches * $0.005 = $0.50/day
scavio_cost = 100 * 0.005
print(f'Scavio API cost: ${scavio_cost:.2f}/day')
print(f'Total new: ${new_daily_cost + scavio_cost:.2f}/day')
print(f'Savings: ${old_daily_cost - new_daily_cost - scavio_cost:.2f}/day')

Exemple Python

Python

import requests, os
H = {'x-api-key': os.environ['SCAVIO_API_KEY'], 'Content-Type': 'application/json'}

def efficient_search(query, max_results=3):
    r = requests.post('https://api.scavio.dev/api/v1/search', headers=H,
        json={'platform': 'google', 'query': query}).json()
    return '\n'.join(f"{x['title']}: {x.get('snippet','')}" for x in r.get('organic',[])[:max_results])

Exemple JavaScript

JavaScript

async function efficientSearch(query, maxResults = 3) {
  const r = await fetch('https://api.scavio.dev/api/v1/search', {
    method: 'POST', headers: {'x-api-key': process.env.SCAVIO_API_KEY, 'Content-Type': 'application/json'},
    body: JSON.stringify({platform: 'google', query})
  });
  return (await r.json()).organic?.slice(0, maxResults)
    .map(x => `${x.title}: ${x.snippet}`).join('\n');
}

Sortie attendue

JSON

An agent that uses 80-95% fewer tokens per search by getting structured results instead of fetching full web pages.

Tutoriels associés

Prérequis

Un agent existant qui récupère des pages web pour obtenir des informations
Python 3.8+ ou Node.js 18+
Une clé API Scavio

Parcours

Étape 1: Mesurer l'utilisation actuelle des tokens

Calculez combien de tokens votre approche actuelle de récupération web utilise par recherche.

Python

import tiktoken

# Typical raw web page fetch (e.g., via requests + BeautifulSoup or Fetch MCP):
raw_page_tokens = 5000  # Average web page after HTML stripping
useful_tokens = 200  # What the LLM actually needs from that page
waste_ratio = (raw_page_tokens - useful_tokens) / raw_page_tokens
print(f'Current waste: {waste_ratio:.0%} of tokens are unused context')
# Output: Current waste: 96% of tokens are unused context

# With structured search API:
structured_tokens = 250  # Average Scavio response (5 results)
print(f'Structured approach: {structured_tokens} tokens per search')
print(f'Savings: {(raw_page_tokens - structured_tokens) / raw_page_tokens:.0%}')
# Output: Savings: 95%

Étape 2: Remplacer la récupération et l'analyse par une recherche

Remplacez la récupération de pages web par un appel API de recherche structurée.

Python

import requests, os

H = {'x-api-key': os.environ['SCAVIO_API_KEY'], 'Content-Type': 'application/json'}

# BEFORE: Fetch full page and extract info (5000+ tokens)
# page = requests.get(url).text
# soup = BeautifulSoup(page, 'html.parser')
# text = soup.get_text()[:3000]  # Still 1000+ tokens

# AFTER: Get structured results (250 tokens)
def efficient_search(query: str) -> str:
    resp = requests.post('https://api.scavio.dev/api/v1/search', headers=H,
        json={'platform': 'google', 'query': query}, timeout=10)
    results = resp.json().get('organic', [])[:5]
    # Return only what the LLM needs
    return '\n'.join(f"{r['title']}: {r.get('snippet','')}" for r in results)

Étape 3: Définir des budgets de tokens par appel d'outil

Configurez votre agent pour appliquer des limites de tokens sur les résultats de recherche.

Python

MAX_SEARCH_TOKENS = 500  # Hard limit per search tool call

def budget_search(query: str, max_tokens: int = MAX_SEARCH_TOKENS) -> str:
    resp = requests.post('https://api.scavio.dev/api/v1/search', headers=H,
        json={'platform': 'google', 'query': query}, timeout=10)
    results = resp.json().get('organic', [])[:5]
    
    output_lines = []
    token_count = 0
    enc = tiktoken.encoding_for_model('gpt-4')
    
    for r in results:
        line = f"{r['title']}: {r.get('snippet','')}"
        line_tokens = len(enc.encode(line))
        if token_count + line_tokens > max_tokens:
            break
        output_lines.append(line)
        token_count += line_tokens
    
    return '\n'.join(output_lines)

Étape 4: Calculer les économies de coûts

Comparez la différence de coût en tokens entre les approches.

Python

# Cost comparison (Claude Sonnet 4.6 pricing):
input_cost_per_1m = 3.0  # $3/M input tokens

# Old approach: 5000 tokens/search * 100 searches/day = 500K tokens/day
old_daily_cost = (500_000 / 1_000_000) * input_cost_per_1m
print(f'Old approach: ${old_daily_cost:.2f}/day ({500_000} tokens)')

# New approach: 250 tokens/search * 100 searches/day = 25K tokens/day
new_daily_cost = (25_000 / 1_000_000) * input_cost_per_1m
print(f'New approach: ${new_daily_cost:.4f}/day ({25_000} tokens)')

# Plus Scavio API cost: 100 searches * $0.005 = $0.50/day
scavio_cost = 100 * 0.005
print(f'Scavio API cost: ${scavio_cost:.2f}/day')
print(f'Total new: ${new_daily_cost + scavio_cost:.2f}/day')
print(f'Savings: ${old_daily_cost - new_daily_cost - scavio_cost:.2f}/day')

Exemple Python

Python

import requests, os
H = {'x-api-key': os.environ['SCAVIO_API_KEY'], 'Content-Type': 'application/json'}

def efficient_search(query, max_results=3):
    r = requests.post('https://api.scavio.dev/api/v1/search', headers=H,
        json={'platform': 'google', 'query': query}).json()
    return '\n'.join(f"{x['title']}: {x.get('snippet','')}" for x in r.get('organic',[])[:max_results])

Exemple JavaScript

JavaScript

async function efficientSearch(query, maxResults = 3) {
  const r = await fetch('https://api.scavio.dev/api/v1/search', {
    method: 'POST', headers: {'x-api-key': process.env.SCAVIO_API_KEY, 'Content-Type': 'application/json'},
    body: JSON.stringify({platform: 'google', query})
  });
  return (await r.json()).organic?.slice(0, maxResults)
    .map(x => `${x.title}: ${x.snippet}`).join('\n');
}

Sortie attendue

JSON

An agent that uses 80-95% fewer tokens per search by getting structured results instead of fetching full web pages.

Comment réduire l'utilisation des tokens LLM avec la recherche structurée

Prérequis

Parcours

Étape 1: Mesurer l'utilisation actuelle des tokens

Étape 2: Remplacer la récupération et l'analyse par une recherche

Étape 3: Définir des budgets de tokens par appel d'outil

Étape 4: Calculer les économies de coûts

Exemple Python

Exemple JavaScript

Sortie attendue

Tutoriels associés

Questions fréquentes

Combien de temps dure ce tutoriel comment réduire l'utilisation des tokens llm avec la recherche structurée ?

De quoi ai-je besoin avant de commencer ?

Puis-je suivre ce tutoriel avec l'offre gratuite ?

Avec quels frameworks cela fonctionne-t-il ?

Ressources connexes

Meilleures API de recherche économes en tokens en 2026

Recherche Web à Faible Consommation de Tokens pour Agents IA

Meilleurs outils d'optimisation des jetons d'agents en 2026

Optimisation des tokens d'agent

Réduisez les tokens de recherche des agents avec le JSON structuré

Recherche Web Agent pour LLM local

Commencer

Comment réduire l'utilisation des tokens LLM avec la recherche structurée

Prérequis

Parcours

Étape 1: Mesurer l'utilisation actuelle des tokens

Étape 2: Remplacer la récupération et l'analyse par une recherche

Étape 3: Définir des budgets de tokens par appel d'outil

Étape 4: Calculer les économies de coûts

Exemple Python

Exemple JavaScript

Sortie attendue

Tutoriels associés

Questions fréquentes

Combien de temps dure ce tutoriel comment réduire l'utilisation des tokens llm avec la recherche structurée ?

De quoi ai-je besoin avant de commencer ?

Puis-je suivre ce tutoriel avec l'offre gratuite ?

Avec quels frameworks cela fonctionne-t-il ?

Ressources connexes

Meilleures API de recherche économes en tokens en 2026

Recherche Web à Faible Consommation de Tokens pour Agents IA

Meilleurs outils d'optimisation des jetons d'agents en 2026

Optimisation des tokens d'agent

Réduisez les tokens de recherche des agents avec le JSON structuré

Recherche Web Agent pour LLM local

Commencer