定义
将本地运行的大语言模型(Ollama、llama.cpp、vLLM)通过 Model Context Protocol(MCP)服务器连接到外部工具和 API,使自托管的 AI 模型能够访问网络搜索、数据库和其他数据源。
深入了解
本地 LLM 在你自己的硬件上运行,无需将数据发送到云提供商。MCP 集成为这些模型添加了工具使用能力,弥合了本地隐私与云 AI 功能之间的差距。 集成架构:本地 LLM(Ollama/llama.cpp)连接到支持 MCP 的聊天界面(OpenWebUI、Continue.dev)。界面中的 MCP 客户端从配置的 MCP 服务器发现工具。当 LLM 请求工具调用时,界面通过 MCP 路由到相应服务器,服务器调用外部 API 并返回结果。 实际设置:(1)使用支持工具的模型运行 Ollama(Llama 3.1 70B、Qwen 2.5、Mistral Large)。(2)配置 OpenWebUI 或其他支持 MCP 的界面。(3)添加搜索(Scavio MCP 服务器)、文件访问、数据库查询等的 MCP 服务器配置。(4)本地模型现在可以搜索网络、查询数据库和使用外部工具,而所有推理都保留在你的硬件上。 性能考虑:本地模型的工具调度比云模型慢。70B 参数模型在消费级硬件上需要 2-5 秒生成工具调用,加上 API 延迟。搜索增强响应的总往返时间:5-10 秒。对于生产力用途可接受,但对面向客户的聊天太慢。 成本结构:零 LLM 推理成本(本地硬件)。仅适用外部 API 成本:例如 Scavio 搜索 $0.005/查询。高频用户每天进行 50 次搜索增强查询的月成本为 $7.50 API 费用,零推理费用。
用法示例
Ollama + OpenWebUI 的 MCP 服务器配置:添加一个暴露「web_search」工具的 Scavio 搜索 MCP 服务器。当用户问「X 的最新评价是什么」时,本地 Llama 3.1 模型生成工具调用,OpenWebUI 通过 MCP 路由到 Scavio 服务器,查询 api.scavio.dev 并返回结果。模型随后在本地合成答案。
平台
本地 LLM MCP 集成在以下平台中相关,所有这些平台都可通过Scavio的统一API访问:
- Amazon
- YouTube