RAG 中的 PII 脱敏在实践中如何使用？

一个客户支持 RAG 系统在检索到的工单中将「John Smith, john@example.com」替换为「[NAME_1], [EMAIL_1]」后再传给 LLM。LLM 生成的回复引用占位符。在发送给用户前，系统将占位符还原为真实数据。

RAG 中的 PII 脱敏 | Scavio 术语表

定义

RAG 中的 PII 脱敏是在将文档发送到 LLM 进行检索增强生成之前，检测和替换个人身份信息（姓名、邮箱、电话、SSN）为占位符的做法，防止敏感数据泄露到模型上下文中。

深入了解

RAG 系统从文档库检索相关内容并传给 LLM。如果文档包含 PII，这些数据会进入 LLM 的上下文窗口，可能被记忆或泄露。PII 脱敏在检索后、LLM 处理前的环节插入替换层。关键实现是双向映射：脱敏时记录原始值到占位符的映射，LLM 响应后将占位符还原。搜索 API 在此架构中扮演安全角色：当 RAG 需要外部数据补充时，搜索查询应使用脱敏后的通用术语而非包含 PII 的原始查询。

用法示例

真实世界示例

一个客户支持 RAG 系统在检索到的工单中将「John Smith, [email protected]」替换为「[NAME_1], [EMAIL_1]」后再传给 LLM。LLM 生成的回复引用占位符。在发送给用户前，系统将占位符还原为真实数据。

平台

RAG 中的 PII 脱敏在以下平台中相关，所有这些平台都可通过Scavio的统一API访问：

google
reddit

定义

深入了解

用法示例

真实世界示例

平台

RAG 中的 PII 脱敏在以下平台中相关，所有这些平台都可通过Scavio的统一API访问：

google
reddit

RAG 中的 PII 脱敏

定义

深入了解

用法示例

平台

相关术语

LLM工作流接地

检索增强生成 (RAG)

答案引擎优化（AEO）

常见问题

RAG 中的 PII 脱敏是什么意思？

RAG 中的 PII 脱敏在实践中如何使用？

哪些平台与RAG 中的 PII 脱敏相关？

RAG 中的 PII 脱敏对开发者为何重要？