定义
RAG 中的 PII 脱敏是在将文档发送到 LLM 进行检索增强生成之前,检测和替换个人身份信息(姓名、邮箱、电话、SSN)为占位符的做法,防止敏感数据泄露到模型上下文中。
深入了解
RAG 系统从文档库检索相关内容并传给 LLM。如果文档包含 PII,这些数据会进入 LLM 的上下文窗口,可能被记忆或泄露。PII 脱敏在检索后、LLM 处理前的环节插入替换层。关键实现是双向映射:脱敏时记录原始值到占位符的映射,LLM 响应后将占位符还原。搜索 API 在此架构中扮演安全角色:当 RAG 需要外部数据补充时,搜索查询应使用脱敏后的通用术语而非包含 PII 的原始查询。
用法示例
一个客户支持 RAG 系统在检索到的工单中将「John Smith, [email protected]」替换为「[NAME_1], [EMAIL_1]」后再传给 LLM。LLM 生成的回复引用占位符。在发送给用户前,系统将占位符还原为真实数据。
平台
RAG 中的 PII 脱敏在以下平台中相关,所有这些平台都可通过Scavio的统一API访问: