ScavioScavio
ProduitTarifsDocumentation
ConnexionCommencer
  1. Accueil
  2. Tutoriels
  3. Comment convertir un site Web en markdown prêt pour LLM
Tutoriel

Comment convertir un site Web en markdown prêt pour LLM

Supprimez la navigation, les bannières de cookies et les pieds de page de toute page avant de l'envoyer à un LLM. La sortie JSON typée réduit les tokens de 60% par rapport au HTML brut.

Obtenez une clé API gratuiteDocumentation API

Le markdown prêt pour LLM compte car le gaspillage de tokens coûte réellement. Une page de documentation API typique transmet 8 000 tokens de HTML mais seulement 2 500 tokens de signal. Ce tutoriel utilise le point de terminaison extract de Scavio pour produire un markdown économique en tokens, prêt pour le contexte de l'agent.

Prérequis

  • Python 3.10+ ou Node 20+
  • Une clé API Scavio

Parcours

Étape 1: Appeler le point de terminaison extract

Scavio renvoie du markdown débarrassé de la navigation et du chrome.

Python
import requests, os
API_KEY = os.environ['SCAVIO_API_KEY']

def to_markdown(url):
    r = requests.post('https://api.scavio.dev/api/v1/extract',
        headers={'x-api-key': API_KEY},
        json={'url': url, 'format': 'markdown'})
    return r.json().get('markdown', '')

Étape 2: Mesurer les économies de tokens

Comparer la taille du HTML brut avec le markdown.

Python
import tiktoken
enc = tiktoken.get_encoding('cl100k_base')

def compare(url):
    md = to_markdown(url)
    raw = requests.get(url).text
    return {'raw_tokens': len(enc.encode(raw)), 'md_tokens': len(enc.encode(md))}

Étape 3: Alimenter un agent LLM

Le markdown s'insère directement dans un message utilisateur.

Python
import anthropic
client = anthropic.Anthropic()

def summarize(url):
    md = to_markdown(url)
    msg = client.messages.create(
        model='claude-sonnet-4-6',
        max_tokens=512,
        messages=[{'role': 'user', 'content': f'Summarize in 5 bullets:\n{md[:6000]}'}])
    return msg.content[0].text

Étape 4: Mettre en cache les pages fréquemment récupérées

Éviter les appels répétés pour les pages de documentation stables.

Python
from functools import lru_cache

@lru_cache(maxsize=500)
def cached_markdown(url):
    return to_markdown(url)

Étape 5: Convertir par lots un plan de site

Parcourir un sitemap.xml pour une conversion en masse.

Python
from xml.etree import ElementTree
def bulk(sitemap_url):
    r = requests.get(sitemap_url)
    urls = [e.text for e in ElementTree.fromstring(r.text).iter('{*}loc')]
    return {u: to_markdown(u) for u in urls[:50]}

Exemple Python

Python
import os, requests
API_KEY = os.environ['SCAVIO_API_KEY']

def to_markdown(url):
    r = requests.post('https://api.scavio.dev/api/v1/extract',
        headers={'x-api-key': API_KEY},
        json={'url': url, 'format': 'markdown'})
    return r.json().get('markdown', '')

print(to_markdown('https://docs.prisma.io')[:500])

Exemple JavaScript

JavaScript
const API_KEY = process.env.SCAVIO_API_KEY;
export async function toMarkdown(url) {
  const r = await fetch('https://api.scavio.dev/api/v1/extract', {
    method: 'POST',
    headers: { 'x-api-key': API_KEY, 'Content-Type': 'application/json' },
    body: JSON.stringify({ url, format: 'markdown' })
  });
  return (await r.json()).markdown || '';
}

Sortie attendue

JSON
Clean markdown representation of the page, stripped of nav and cookies. Token count drops 40 to 60% versus raw HTML.

Tutoriels associés

  • Comment convertir des documentations API en Markdown pour Cursor
  • Comment ancrer un LLM avec les données d'un dépôt GitHub
  • Comment construire un agent de codage avec recherche en temps réel de tickets GitHub et de documentation

Questions fréquentes

La plupart des développeurs terminent ce tutoriel en 15 à 30 minutes. Vous aurez besoin d'une clé API Scavio (l'offre gratuite suffit) et d'un environnement Python ou JavaScript fonctionnel.

Python 3.10+ ou Node 20+. Une clé API Scavio. Une clé API Scavio vous donne 50 crédits gratuits à l'inscription.

Oui. L'offre gratuite comprend 50 crédits à l'inscription, ce qui est largement suffisant pour terminer ce tutoriel et prototyper une solution fonctionnelle.

Scavio dispose d'un package natif LangChain (langchain-scavio), d'un serveur MCP et d'une API REST simple qui fonctionne avec tout client HTTP. Ce tutoriel utilise the raw REST API, mais vous pouvez l'adapter à votre framework de prédilection.

Ressources connexes

Best Of

Meilleure API de scraping web pour LLM en 2026

Read more
Use Case

Recherche Web à Faible Consommation de Tokens pour Agents IA

Read more
Use Case

Contexte de recherche efficace en tokens pour les pipelines LLM

Read more
Best Of

Meilleure API de recherche Web pour LLM locaux en 2026

Read more
Workflow

Workflow HTML vers Markdown avant LLM

Read more
Glossary

Coût des tokens HTML

Read more

Commencer

Supprimez la navigation, les bannières de cookies et les pieds de page de toute page avant de l'envoyer à un LLM. La sortie JSON typée réduit les tokens de 60% par rapport au HTML brut.

Obtenez une clé API gratuiteLire la documentation
ScavioScavio

API de recherche en temps réel pour agents IA. Recherchez sur toutes les plateformes, pas seulement Google.

Produit

  • Fonctionnalités
  • Tarifs
  • Tableau de bord
  • Affiliés

Développeurs

  • Documentation
  • Référence API
  • Démarrage rapide
  • Intégration MCP
  • SDK Python

Alternatives

  • Alternative à Tavily
  • Alternative à SerpAPI
  • Alternative à Firecrawl
  • Alternative à Exa

Outils

  • Formateur JSON
  • cURL vers code
  • Compteur de jetons
  • Tous les outils

© 2026 Scavio. Tous droits réservés.

Featured on TAAFT
Conditions d'utilisationPolitique de confidentialité