概述
Pre-LLM hop,在 LLM 看到 URL 之前通过 Scavio /extract 将 URL 转换为 Markdown。对于 HTML 密集型任务,输入标记减少约 10 倍。
触发器
任何代理循环中的每个 URL 处理
计划
每个任务
工作流步骤
1
接收URL列表
来自 SERP 结果或用户输入。
2
Scavio /提取每个 URL
使用 {url, format: 'markdown'} 发布。
3
可选的缓存命中
如果在过去 24 小时内提取了 markdown,则返回缓存。
4
将 markdown 传递给 LLM
LLM 上下文现在每页约 3K 令牌,而不是约 30K。
5
LLM产生输出
摘要、分类、提取或任何任务。
6
可选的第二遍提取
如果 markdown 太长,请使用摘要模式或块重新提取。
Python 实现
Python
import os, requests
H = {'x-api-key': os.environ['SCAVIO_API_KEY']}
def extract(url):
return requests.post('https://api.scavio.dev/api/v1/extract', headers=H, json={'url': url, 'format': 'markdown'}).json().get('markdown', '')JavaScript 实现
JavaScript
const H = { 'x-api-key': process.env.SCAVIO_API_KEY, 'Content-Type': 'application/json' };
async function extract(url) {
const r = await fetch('https://api.scavio.dev/api/v1/extract', { method:'POST', headers:H, body: JSON.stringify({ url, format: 'markdown' }) }).then(r => r.json());
return r.markdown || '';
}使用的平台
包含知识图谱、PAA和AI概览的网页搜索