定义
AI 代理的缓存知识(之前交互的内存和存储的上下文)与当前交互期间从实时 API 检索的实时数据之间的架构区别。
深入了解
代理内存与实时数据代表了生产人工智能系统中的基本设计决策。内存包括:对话历史记录、用户偏好、先前研究的事实和缓存的 API 响应。实时数据包括:当前搜索结果、实时价格、实时库存状态和最新的社交媒体指标。如果这种平衡不正确,会导致响应过时(过度依赖内存)或成本过高和延迟(过度获取实时数据)。决策框架考虑四个维度。新鲜度要求:价格每小时变化(实时),公司描述每月变化(可以记忆),历史事实永远不会改变(始终记忆)。成本影响:每次实时 API 调用的成本为 0.005 美元以上,内存检索基本上是免费的。延迟影响:内存检索需要几毫秒,实时 API 调用需要 200-800 毫秒。准确性风险:财务数据需要实时验证,一般上下文可以使用内存。生产实施通常使用分层方法。第 1 层(始终有效):价格、库存状态、排名、趋势数据。第 2 层(24 小时缓存):竞争对手列表、评论分数、营业时间。第 3 层(每周刷新):域名权限、反向链接配置文件、业务描述。第 4 层(永久记忆):用户偏好、对话历史记录、已确认的事实。缓存失效策略至关重要:基于时间的过期(最简单)、事件触发刷新(价格警报触发全新查找)和置信度衰减(随着时间的推移减少对缓存数据的信任,最终触发刷新)。通过 Savio 每次查询 0.005 美元,不必要的实时查找的成本很低,因此许多团队默认为面向客户的任何内容提供实时数据,并为内部代理上下文保留内存。
用法示例
购物代理会记住用户更喜欢有机产品(内存),但在推荐特定产品之前总是查询实时亚马逊定价,因为 6 小时前缓存的价格可能不再准确。
平台
代理内存与实时数据在以下平台中相关,所有这些平台都可通过Scavio的统一API访问:
- Amazon
- YouTube
- TikTok
- Walmart