ScavioScavio
产品定价文档
登录开始使用
  1. 首页
  2. 教程
  3. 如何构建 Google Dorks + LLM 提取管道
教程

如何构建 Google Dorks + LLM 提取管道

将 Google Dorks 搜索与 LLM 提取相结合,将 PDF 和政府门户网站转换为类型化 JSON。来自 r/LangChain 的 DaaS 构建的模式。

获取免费API密钥API文档

r/LangChain 的一篇文章分享了一个使用 Google Dorks + Llama-3 + MCP 的自治 DaaS 架构。该模式适用于任何结构化文档发现作业。本教程在 Scavio 上遵循相同的流程。

前置条件

  • Python 3.10+
  • Scavio API 密钥
  • Groq 或 Anthropic API 密钥

操作指南

步骤 1: 目标的 Dork 模式

站点:+ 文件类型:+ 关键字。

Python
DORKS = ['site:gov.br filetype:pdf 2026 contratos', 'site:europa.eu filetype:pdf AI act']

步骤 2: 通过 Scavio 搜索运行 dork

返回指向 PDF 的有机结果。

Python
import requests, os
API_KEY = os.environ['SCAVIO_API_KEY']

def dork(q):
    return requests.post('https://api.scavio.dev/api/v1/search',
        headers={'x-api-key': API_KEY}, json={'query': q}).json()

步骤 3: 过滤新的 PDF

日期筛选或法学硕士筛选。

Python
def fresh_pdfs(results, year='2026'):
    return [r for r in results.get('organic_results', []) if year in r.get('snippet', '') and r['link'].endswith('.pdf')]

步骤 4: 通过 Scavio extract 将 PDF 提取为文本

PDF 感知提取返回 markdown。

Python
def pdf_to_text(url):
    r = requests.post('https://api.scavio.dev/api/v1/extract',
        headers={'x-api-key': API_KEY},
        json={'url': url, 'format': 'markdown'}).json()
    return r.get('markdown', '')

步骤 5: LLM 将垃圾文本转换为类型化 JSON

严格模式提示;如果不解析则拒绝。

Python
import anthropic, json
client = anthropic.Anthropic()

def typed(md):
    msg = client.messages.create(model='claude-sonnet-4-6', max_tokens=600,
        messages=[{'role':'user','content':f'Extract opportunity details as JSON: title, deadline, amount, agency. Source: {md[:6000]}'}])
    return json.loads(msg.content[0].text)

Python 示例

Python
# Daily run: 5 dorks × ~20 PDFs each = ~105 calls = ~$0.45 on Project tier.

JavaScript 示例

JavaScript
// TS version uses the same endpoints.

预期输出

JSON
Government bid PDFs converted to typed JSON daily. Cache layer keeps repeat queries at sub-50ms.

相关教程

  • 如何在 CrewAI SDR 代理中用 Scavio 替换 Serper
  • 如何在 SQLite 中为 AI 代理缓存搜索结果

常见问题

大多数开发者在15到30分钟内完成本教程。您需要一个Scavio API密钥(免费套餐即可)和可用的Python或JavaScript环境。

Python 3.10+. Scavio API 密钥. Groq 或 Anthropic API 密钥. Scavio API密钥注册即送50个免费积分。

可以。免费套餐注册即送50个积分,完全足够完成本教程并构建一个可运行的原型解决方案。

Scavio提供原生LangChain包(langchain-scavio)、MCP服务器以及适用于任何HTTP客户端的REST API。本教程使用 the raw REST API, 但您可以根据需要适配您选择的框架。

相关资源

Glossary

Google Dorks流水线

Read more
Use Case

OpenSEO 搭配 Scavio 数据后端

Read more
Workflow

每日本地法学硕士搜索接地管道

Read more
Best Of

2026年本地LLM最佳网络搜索API

Read more
Best Of

2026年本地LLM接地最佳搜索API

Read more
Solution

用搜索检测和纠正LLM错误回答

Read more

开始构建

将 Google Dorks 搜索与 LLM 提取相结合,将 PDF 和政府门户网站转换为类型化 JSON。来自 r/LangChain 的 DaaS 构建的模式。

获取免费API密钥阅读文档
ScavioScavio

面向AI智能体的实时搜索API。搜索所有平台,不仅仅是Google。

产品

  • 功能
  • 定价
  • 控制台
  • 联盟计划

开发者

  • 文档
  • API参考
  • 快速开始
  • MCP集成
  • Python SDK

替代方案

  • Tavily替代方案
  • SerpAPI替代方案
  • Firecrawl替代方案
  • Exa替代方案

工具

  • JSON格式化
  • cURL转代码
  • Token计数器
  • 全部工具

© 2026 Scavio. 保留所有权利。

Featured on TAAFT
服务条款隐私政策