Définition
Le masquage des PII dans le RAG est la discipline qui consiste à supprimer les informations personnelles identifiables des fragments de documents avant leur vectorisation, de sorte que la recherche vectorielle elle-même ne puisse pas divulguer de données sensibles à un LLM ou à un utilisateur.
En profondeur
L'erreur courante en RAG est de vectoriser le contenu brut et de prévoir de le nettoyer plus tard. Si les PII résident dans les vectorisations, la recherche devient la surface de fuite — une requête de similarité renvoie le fragment sensible et le LLM est ensuite invité à répondre à partir de celui-ci. Le bon modèle est : masquer d'abord, puis fragmenter, puis vectoriser. Les domaines bancaires, de la santé et fortement réglementés ajoutent également des filtres de métadonnées (région, gamme de produits, fraîcheur) pour éviter d'acheminer les requêtes vers des documents obsolètes ou non autorisés. Lorsque Scavio est la source d'ingestion, le masquage a lieu entre la récupération Scavio et l'étape de vectorisation, avant que le fragment ne touche le stockage vectoriel.
Exemple d'utilisation
L'équipe bancaire a ajouté une étape de masquage des PII dans le RAG entre l'ingestion Scavio et l'upsert Pinecone, supprimant les noms et identifiants de compte avant que tout fragment ne soit vectorisé.
Plateformes
Masquage des PII dans le RAG est pertinent sur les plateformes suivantes, toutes accessibles via l'API unifiée de Scavio :
Termes associés
Ancrage des workflows LLM
L'ancrage des workflows LLM est le modèle qui consiste à injecter un contexte vérifié, frais et structuré — provenant d'...
Génération augmentée par récupération (RAG)
La génération augmentée par récupération (RAG) est une architecture d'IA qui améliore les sorties des grands modèles de ...
Answer Engine Optimization (AEO)
Answer Engine Optimization (AEO) est la discipline 2026 d'optimisation du contenu, des mentions et des données structuré...