Combien de temps dure ce tutoriel comment convertir un site web en markdown prêt pour llm ?

La plupart des développeurs terminent ce tutoriel en 15 à 30 minutes. Vous aurez besoin d'une clé API Scavio (l'offre gratuite suffit) et d'un environnement Python ou JavaScript fonctionnel.

De quoi ai-je besoin avant de commencer ?

Python 3.10+ ou Node 20+. Une clé API Scavio. Une clé API Scavio vous donne 50 crédits gratuits à l'inscription.

Puis-je suivre ce tutoriel avec l'offre gratuite ?

Oui. L'offre gratuite comprend 50 crédits à l'inscription, ce qui est largement suffisant pour terminer ce tutoriel et prototyper une solution fonctionnelle.

Avec quels frameworks cela fonctionne-t-il ?

Scavio dispose d'un package natif LangChain (langchain-scavio), d'un serveur MCP et d'une API REST simple qui fonctionne avec tout client HTTP. Ce tutoriel utilise the raw REST API, mais vous pouvez l'adapter à votre framework de prédilection.

Du site Web au markdown prêt pour LLM (2026)

Le markdown prêt pour LLM compte car le gaspillage de tokens coûte réellement. Une page de documentation API typique transmet 8 000 tokens de HTML mais seulement 2 500 tokens de signal. Ce tutoriel utilise le point de terminaison extract de Scavio pour produire un markdown économique en tokens, prêt pour le contexte de l'agent.

Prérequis

Python 3.10+ ou Node 20+
Une clé API Scavio

Parcours

Étape 1: Appeler le point de terminaison extract

Scavio renvoie du markdown débarrassé de la navigation et du chrome.

Python

import requests, os
API_KEY = os.environ['SCAVIO_API_KEY']

def to_markdown(url):
    r = requests.post('https://api.scavio.dev/api/v1/extract',
        headers={'x-api-key': API_KEY},
        json={'url': url, 'format': 'markdown'})
    return r.json().get('markdown', '')

Étape 2: Mesurer les économies de tokens

Comparer la taille du HTML brut avec le markdown.

Python

import tiktoken
enc = tiktoken.get_encoding('cl100k_base')

def compare(url):
    md = to_markdown(url)
    raw = requests.get(url).text
    return {'raw_tokens': len(enc.encode(raw)), 'md_tokens': len(enc.encode(md))}

Étape 3: Alimenter un agent LLM

Le markdown s'insère directement dans un message utilisateur.

Python

import anthropic
client = anthropic.Anthropic()

def summarize(url):
    md = to_markdown(url)
    msg = client.messages.create(
        model='claude-sonnet-4-6',
        max_tokens=512,
        messages=[{'role': 'user', 'content': f'Summarize in 5 bullets:\n{md[:6000]}'}])
    return msg.content[0].text

Étape 4: Mettre en cache les pages fréquemment récupérées

Éviter les appels répétés pour les pages de documentation stables.

Python

from functools import lru_cache

@lru_cache(maxsize=500)
def cached_markdown(url):
    return to_markdown(url)

Étape 5: Convertir par lots un plan de site

Parcourir un sitemap.xml pour une conversion en masse.

Python

from xml.etree import ElementTree
def bulk(sitemap_url):
    r = requests.get(sitemap_url)
    urls = [e.text for e in ElementTree.fromstring(r.text).iter('{*}loc')]
    return {u: to_markdown(u) for u in urls[:50]}

Exemple Python

Python

import os, requests
API_KEY = os.environ['SCAVIO_API_KEY']

def to_markdown(url):
    r = requests.post('https://api.scavio.dev/api/v1/extract',
        headers={'x-api-key': API_KEY},
        json={'url': url, 'format': 'markdown'})
    return r.json().get('markdown', '')

print(to_markdown('https://docs.prisma.io')[:500])

Exemple JavaScript

JavaScript

const API_KEY = process.env.SCAVIO_API_KEY;
export async function toMarkdown(url) {
  const r = await fetch('https://api.scavio.dev/api/v1/extract', {
    method: 'POST',
    headers: { 'x-api-key': API_KEY, 'Content-Type': 'application/json' },
    body: JSON.stringify({ url, format: 'markdown' })
  });
  return (await r.json()).markdown || '';
}

Sortie attendue

JSON

Clean markdown representation of the page, stripped of nav and cookies. Token count drops 40 to 60% versus raw HTML.

Tutoriels associés

Prérequis

Python 3.10+ ou Node 20+
Une clé API Scavio

Parcours

Étape 1: Appeler le point de terminaison extract

Scavio renvoie du markdown débarrassé de la navigation et du chrome.

Python

import requests, os
API_KEY = os.environ['SCAVIO_API_KEY']

def to_markdown(url):
    r = requests.post('https://api.scavio.dev/api/v1/extract',
        headers={'x-api-key': API_KEY},
        json={'url': url, 'format': 'markdown'})
    return r.json().get('markdown', '')

Étape 2: Mesurer les économies de tokens

Comparer la taille du HTML brut avec le markdown.

Python

import tiktoken
enc = tiktoken.get_encoding('cl100k_base')

def compare(url):
    md = to_markdown(url)
    raw = requests.get(url).text
    return {'raw_tokens': len(enc.encode(raw)), 'md_tokens': len(enc.encode(md))}

Étape 3: Alimenter un agent LLM

Le markdown s'insère directement dans un message utilisateur.

Python

import anthropic
client = anthropic.Anthropic()

def summarize(url):
    md = to_markdown(url)
    msg = client.messages.create(
        model='claude-sonnet-4-6',
        max_tokens=512,
        messages=[{'role': 'user', 'content': f'Summarize in 5 bullets:\n{md[:6000]}'}])
    return msg.content[0].text

Étape 4: Mettre en cache les pages fréquemment récupérées

Éviter les appels répétés pour les pages de documentation stables.

Python

from functools import lru_cache

@lru_cache(maxsize=500)
def cached_markdown(url):
    return to_markdown(url)

Étape 5: Convertir par lots un plan de site

Parcourir un sitemap.xml pour une conversion en masse.

Python

from xml.etree import ElementTree
def bulk(sitemap_url):
    r = requests.get(sitemap_url)
    urls = [e.text for e in ElementTree.fromstring(r.text).iter('{*}loc')]
    return {u: to_markdown(u) for u in urls[:50]}

Exemple Python

Python

import os, requests
API_KEY = os.environ['SCAVIO_API_KEY']

def to_markdown(url):
    r = requests.post('https://api.scavio.dev/api/v1/extract',
        headers={'x-api-key': API_KEY},
        json={'url': url, 'format': 'markdown'})
    return r.json().get('markdown', '')

print(to_markdown('https://docs.prisma.io')[:500])

Exemple JavaScript

JavaScript

const API_KEY = process.env.SCAVIO_API_KEY;
export async function toMarkdown(url) {
  const r = await fetch('https://api.scavio.dev/api/v1/extract', {
    method: 'POST',
    headers: { 'x-api-key': API_KEY, 'Content-Type': 'application/json' },
    body: JSON.stringify({ url, format: 'markdown' })
  });
  return (await r.json()).markdown || '';
}

Sortie attendue

JSON

Clean markdown representation of the page, stripped of nav and cookies. Token count drops 40 to 60% versus raw HTML.

Comment convertir un site Web en markdown prêt pour LLM

Prérequis

Parcours

Étape 1: Appeler le point de terminaison extract

Étape 2: Mesurer les économies de tokens

Étape 3: Alimenter un agent LLM

Étape 4: Mettre en cache les pages fréquemment récupérées

Étape 5: Convertir par lots un plan de site

Exemple Python

Exemple JavaScript

Sortie attendue

Tutoriels associés

Questions fréquentes

Combien de temps dure ce tutoriel comment convertir un site web en markdown prêt pour llm ?

De quoi ai-je besoin avant de commencer ?

Puis-je suivre ce tutoriel avec l'offre gratuite ?

Avec quels frameworks cela fonctionne-t-il ?

Ressources connexes

Meilleure API de scraping web pour LLM en 2026

Recherche Web à Faible Consommation de Tokens pour Agents IA

Contexte de recherche efficace en tokens pour les pipelines LLM

Meilleure API de recherche Web pour LLM locaux en 2026

Workflow HTML vers Markdown avant LLM

Coût des tokens HTML

Commencer

Comment convertir un site Web en markdown prêt pour LLM

Prérequis

Parcours

Étape 1: Appeler le point de terminaison extract

Étape 2: Mesurer les économies de tokens

Étape 3: Alimenter un agent LLM

Étape 4: Mettre en cache les pages fréquemment récupérées

Étape 5: Convertir par lots un plan de site

Exemple Python

Exemple JavaScript

Sortie attendue

Tutoriels associés

Questions fréquentes

Combien de temps dure ce tutoriel comment convertir un site web en markdown prêt pour llm ?

De quoi ai-je besoin avant de commencer ?

Puis-je suivre ce tutoriel avec l'offre gratuite ?

Avec quels frameworks cela fonctionne-t-il ?

Ressources connexes

Meilleure API de scraping web pour LLM en 2026

Recherche Web à Faible Consommation de Tokens pour Agents IA

Contexte de recherche efficace en tokens pour les pipelines LLM

Meilleure API de recherche Web pour LLM locaux en 2026

Workflow HTML vers Markdown avant LLM

Coût des tokens HTML

Commencer