Pourquoi les outils de détection à code source ouvert comme Presidio ne suffisent pas pour la conformité canadienne
Presidio est un outil à code source ouvert bien conçu. Il est aussi centré sur les États-Unis, exige une configuration importante pour les identifiants canadiens et fait reposer toute la charge de conformité sur votre équipe d'ingénierie.
Par Canuckt AI Team
Pourquoi les équipes choisissent Presidio
Microsoft Presidio est un choix raisonnable pour les équipes qui disposent de la capacité d'ingénierie nécessaire pour le déployer et l'entretenir. Il est bien documenté, activement maintenu et s'intègre à l'infrastructure Azure. Les capacités de détection de base — noms, adresses courriel, numéros de téléphone, numéros de carte de crédit, adresses IP — couvrent un vaste terrain.
Pour les organisations qui bâtissent sur Azure ou l'écosystème Microsoft, c'est un point de départ naturel. Pour les équipes de développement qui veulent une bibliothèque de détection de renseignements personnels en Python, personnalisable et intégrable dans leur propre service, c'est l'une des options les plus matures offertes.
Le problème n'est pas que Presidio soit de la mauvaise ingénierie. Le problème, c'est que « bonne ingénierie » et « adéquat pour la conformité canadienne » ne sont pas la même exigence, et l'écart entre les deux est plus grand que la plupart des équipes canadiennes ne le réalisent avant d'être bien avancées dans une implémentation.
Là où Presidio est insuffisant pour les organisations canadiennes
La couverture des identifiants canadiens est mince par défaut. Les détecteurs prêts à l'emploi de Presidio sont conçus principalement pour les identifiants américains. Les Social Security Numbers, oui. Les numéros d'assurance sociale disposent de détecteurs contribués par la communauté, mais ils exigent une configuration explicite et la logique de validation ne tient pas pleinement compte de l'éventail des formats de NAS réels — en particulier les NAS d'ancien format et les variantes des numéros d'assurance maladie provinciaux.
Les numéros de carte d'assurance maladie provinciaux — le format à dix chiffres de l'Ontario, le Personal Health Number de la C.-B., le PHN de l'Alberta, le NAM du Québec — ne figurent pas dans l'ensemble de détecteurs par défaut de Presidio. Les construire exige d'écrire des détecteurs personnalisés en Python, de mettre en œuvre la logique de validation propre à chaque province et de tester contre des données échantillons réelles. C'est de trois à huit semaines de travail d'ingénierie pour une organisation couvrant plusieurs provinces.
Les codes postaux canadiens suivent un motif alternant lettre-chiffre précis (A1A 1A1) assorti de contraintes additionnelles sur les caractères valides. La détection générique des codes postaux manque les codes postaux canadiens valides ou produit des taux élevés de faux positifs sur d'autres chaînes de six caractères. La détection géographique prête à l'emploi de Presidio est centrée sur les États-Unis.
Les modèles de TLN sont entraînés sur des données américaines. La reconnaissance d'entités nommées de Presidio dépend de modèles de langue spaCy entraînés principalement sur des corpus de textes en anglais américain. Les noms canadiens, en particulier les noms de famille québécois courants et les noms issus des communautés sud-asiatiques, est-asiatiques et autochtones bien représentées au sein de la population canadienne, présentent des taux de reconnaissance plus faibles que les noms anglo-américains. Dans un contexte d'entreprise canadienne diversifiée, cela crée des angles morts systématiques.
La charge d'ingénierie est continue. Le code source ouvert est gratuit à l'acquisition et coûteux à l'exploitation. Presidio exige que vous mainteniez l'infrastructure sur laquelle il roule, que vous le mettiez à jour à mesure que de nouvelles versions paraissent, que vous testiez les modifications des détecteurs contre vos données, que vous surveilliez la dérive de l'exactitude de détection et que vous étendiez la bibliothèque de détecteurs à mesure que de nouveaux types de renseignements personnels deviennent pertinents pour votre cas d'usage. Pour une équipe qui est avant tout une entreprise de produits plutôt qu'une entreprise d'infrastructure de protection de la vie privée, il s'agit d'un coût récurrent qui ne génère aucune valeur produit.
La documentation de conformité est votre responsabilité. Si vous utilisez Presidio pour respecter une obligation de mesures de sécurité de la LPRPDE, l'organisation qui l'utilise doit pouvoir démontrer que l'implémentation respecte la norme. Quel est le taux de faux négatifs pour la détection des NAS dans votre corpus de documents? Comment le savez-vous? Quelle est la logique de validation des NAS qu'il détecte effectivement? Quelle journalisation d'audit votre implémentation tient-elle? Ce ne sont pas des questions auxquelles Presidio répond — ce sont des questions auxquelles votre équipe d'ingénierie doit répondre, qu'elle doit documenter et qu'elle doit pouvoir défendre devant un enquêteur du CPVP.
Le problème du taux de faux négatifs
C'est l'enjeu technique qui compte le plus pour la conformité. Un faux négatif dans la détection de renseignements personnels signifie qu'un renseignement personnel présent dans un document n'a pas été détecté ni signalé. Si vous utilisez Presidio pour balayer des documents avant leur production en litige, ou pour repérer des NAS dans votre dépôt de fichiers, ou pour signaler des RPS avant qu'ils ne quittent votre système — un faux négatif signifie une exposition que vous ignoriez.
Mesurer les taux de faux négatifs exige une vérité-terrain : un ensemble de tests de documents dont les emplacements de renseignements personnels sont connus, annotés par un humain, contre lesquels votre système de détection est étalonné. La plupart des équipes qui déploient Presidio pour des cas d'usage de conformité ne font pas cette mesure. Elles déploient l'outil, le voient attraper des choses et présument qu'il attrape tout. Ce n'est pas le cas.
La norme du CPVP en matière de mesures de sécurité est « adaptée au degré de sensibilité des renseignements ». Une implémentation de détection de renseignements personnels non documentée, non étalonnée, dont le taux de faux négatifs est inconnu, est un argument difficile à faire valoir comme mesure de sécurité appropriée pour des NAS ou des numéros de carte d'assurance maladie.
Ce qu'offrent les outils spécialisés
L'alternative à bâtir sur Presidio n'est pas toujours un outil SaaS — certaines équipes ont réellement besoin de la souplesse d'une fondation à code source ouvert. Mais la détection spécialisée de renseignements personnels pour la conformité canadienne offre des choses que Presidio seul n'offre pas :
Une couverture des identifiants canadiens prête à l'emploi, incluant tous les formats de carte d'assurance maladie provinciaux, les NAS avec gestion des variations de format réelles, les formats d'instruments financiers canadiens et les numéros de permis professionnels propres au Canada.
Des modèles de RNE entraînés et étalonnés pour les textes en anglais et en français canadiens, avec des taux de faux négatifs documentés par catégorie d'identifiant.
Une journalisation d'audit qui satisfait au principe de responsabilité de la LPRPDE — un registre de ce qui a été balayé, de ce qui a été détecté et de la mesure prise.
Une infrastructure gérée pour que votre équipe d'ingénierie n'ait pas à maintenir la détection de renseignements personnels comme une compétence de base.
Une documentation de conformité — des preuves des capacités de détection, de la logique de validation et des métriques d'exactitude qui peuvent être produites en réponse à une demande du CPVP.
Presidio est une fondation raisonnable pour les organisations qui ont la capacité d'ingénierie de bâtir dessus correctement. La question est de savoir si c'est réellement le bon investissement par rapport au résultat de conformité dont vous avez besoin. Pour la plupart des entreprises canadiennes qui ne sont pas des entreprises d'infrastructure de protection de la vie privée, ce ne l'est pas — et le découvrir douze mois après le début d'une implémentation de Presidio est une leçon coûteuse.
Protégez vos données avant de les envoyer à l'IA.
Shielk supprime automatiquement les renseignements personnels de votre contenu — pour que votre équipe puisse utiliser les outils IA en toute sécurité.
Essayer Shielk gratuitement