Accueil » Blogue » Protection des renseignement personnel dans le contexte de la loi 25 — La différence entre données…

Protection & vie privé

29 janvier 2024

Protection des renseignement personnel dans le contexte de la loi 25 — La différence entre données…

Aujourd’hui nous allons explorer la différence entre les données dépersonnalisées et les données anonymisées. Ces deux termes reviennent souvent dans le domaine de la protection des renseignements personnel, et il est essentiel de bien comprendre ce qui les distingue c’est essentiel pour toute organisation qui manipule des informations personnelles.

C’est une question non seulement d’éthique, mais aussi de conformité avec la protection de la vie privée surtout suite à l’adoption de la loi 25 au Québec.

Anonymous data — Photo by Luke Chesser on Unsplash

Les données dépersonnalisées font référence à un groupe d’informations qui ont été modifiées de manière à ne plus permettre de les associer à une personne spécifique. Cela peut inclure la suppression des identifiants personnels tels que les noms, les adresses ou les numéros de téléphone.

Les données anonymisées quant à elles font référence à des informations qui ont été modifié de sorte qu’il est impossible de les relier à une personne spécifique, même par croisement avec d’autres données. Cela implique des techniques avancées de protection des données pour garantir que toute possibilité d’identification a été éliminée. Les données anonymisées sont souvent utilisées dans des domaines sensibles, tels que les études médicales ou les enquêtes sur la vie privée.

Toutefois, avec le jargon technique omniprésent, il peut être facile de confondre ces deux concepts. Je vais tenter d’approfondir sur leurs différences.

Donnée dépersonnalisée :

Les données dépersonnalisées réfèrent à des informations où les éléments permettant d’identifier directement une personne ont été retirés. Cependant, une identification directe d’une personne peut être possible par combinaison avec d’autres données. Par exemple, un ensemble de données duquel on supprime les noms et les adresses tout en conservant l’âge et le sexe, est considéré comme dépersonnalisé.

Une donnée dépersonnalisée est une information initialement associée à une personne spécifique mais qui a été modifiée pour enlever ou masquer les éléments permettant d’identifier directement cette personne.
Cela peut inclure la suppression ou la modification de noms, adresses, numéros de téléphone, etc.
Cependant, il est important de noter que les données dépersonnalisées peuvent toujours contenir des risques de ré-identification, surtout si elles sont combinées avec d’autres données.

Exemple de données dépersonnalisées

Cette table illustre un exemple simple de la dépersonnalisation des données. Dans la colonne de gauche se trouve les données d’origine et dans celle de droite, un sous-ensemble des mêmes données après dépersonnalisation. Veuillez noter que même si les données dépersonnalisées semblent anonymes, la possibilité de ré-identification existe si elles sont croisées avec d’autres informations.

Exemples d’utilisation de données dépersonnalisées

Étude de recherche en santé : Un institut de recherche veut conduire une étude sur le diabète. Pour cela, il recueille des données de patients, y compris leur âge, sexe, historique de santé, et niveau de glucose dans le sang. Afin de protéger la vie privée des patients, ils suppriment les noms et les adresses avant d’analyser les données. Cependant, les informations restantes pourraient potentiellement être utilisées pour identifier des individus si elles étaient combinées avec d’autres données.
Marketing : Une entreprise de vente au détail peut collecter des données sur les habitudes d’achat de ses clients, tels que les types de produits qu’ils achètent et la fréquence de leurs achats. Ils dépersonnalisent ces données en supprimant les noms et les adresses courriel des clients. Ces données dépersonnalisées peuvent alors être utilisées pour analyser des tendances générales d’achat sans révéler l’identité spécifique des clients.
Services de diffusion en continu: Un service comme Netflix peut collecter des données sur les habitudes de ses utilisateurs, telles que les types de films préférés et le temps passé à regarder. Ces données sont ensuite dépersonnalisées en supprimant les noms et les adresses courriels. Ces informations dépersonnalisées permettent à Netflix d’analyser les tendances d’utilisation et d’améliorer ses recommandations, sans compromettre l’identité de ses utilisateurs.

Loi sur la protection des renseignements personnels dans le secteur privé

Article 12: Un renseignement personnel ne peut être utilisé au sein de l’entreprise qu’aux fins pour lesquelles il a été recueilli, à moins du consentement de la personne concernée. Ce consentement doit être manifesté de façon expresse dès qu’il s’agit d’un renseignement personnel sensible.

Un renseignement personnel peut toutefois être utilisé à une autre fin sans le consentement de la personne concernée dans les seuls cas suivants:

1° lorsque son utilisation est à des fins compatibles avec celles pour lesquelles il a été recueilli;

2° lorsque son utilisation est manifestement au bénéfice de la personne concernée;

3° lorsque son utilisation est nécessaire à des fins de prévention et de détection de la fraude ou d’évaluation et d’amélioration des mesures de protection et de sécurité;

4° lorsque son utilisation est nécessaire à des fins de fourniture ou de livraison d’un produit ou de prestation d’un service demandé par la personne concernée;

5° lorsque son utilisation est nécessaire à des fins d’étude, de recherche ou de production de statistiques et qu’il est dépersonnalisé.

Pour qu’une fin soit compatible au sens du paragraphe 1° du deuxième alinéa, il doit y avoir un lien pertinent et direct avec les fins auxquelles le renseignement a été recueilli. Toutefois, ne peut être considérée comme une fin compatible la prospection commerciale ou philanthropique.

Pour l’application de la présente loi, un renseignement personnel est:

1° dépersonnalisé lorsque ce renseignement ne permet plus d’identifier directement la personne concernée;

2° sensible lorsque, de par sa nature notamment médicale, biométrique ou autrement intime, ou en raison du contexte de son utilisation ou de sa communication, il suscite un haut degré d’attente raisonnable en matière de vie privée.

Toute personne qui exploite une entreprise et qui utilise des renseignements dépersonnalisés doit prendre les mesures raisonnables afin de limiter les risques que quiconque procède à l’identification d’une personne physique à partir de renseignements dépersonnalisés.

Risque de ré-identification de donnée dépersonnalisé

Employé A : 45 ans, Directeur Technique, 120 000$/an
Employé B : 34 ans, Responsable Marketing, 70 000$/an
Employé C : 29 ans, Programmeur web, 65 000$/an

Pour une entreprise de 30 employés, nous avons supprimé les identifiants en revanche un collègue connaissant l’âge approximatif des employés et leurs postes peut facilement déduire qui est qui dans cette liste, surtout pour des postes uniques comme celui de Directeur Technique.

Technique de dépersonnalisation des données

Voici quelques techniques couramment utilisées pour la dépersonnalisation des données :

La suppression d’attributs : Cela implique de supprimer des détails spécifiques comme le nom, l’adresse, le numéro de téléphone, etc. C’est la méthode la plus simple.
La substitution : Cette technique remplace les données réelles par d’autres données. Par exemple, les noms sont remplacés par des pseudonymes.
Pseudonymisation : Cette technique consiste à remplacer des noms et autres identifiants directs par des pseudonymes ou des codes uniques. Cela permet de dissocier les données de leur sujet sans les rendre complètement anonymes.
La perturbation : Cette méthode ajoute du « bruit » aux données pour les masquer. Par exemple, de petits changements peuvent être apportés aux chiffres ou aux lettres.
L’agrégation : Les données sont regroupées en catégories plus larges. Par exemple, les âges précis peuvent être remplacés par des tranches d’âge ou les montants de dépenses sont regroupés.
La k-anonymat : Cette technique vise à rendre les données individuelles indistinguables d’un nombre d’individus dans le même ensemble de données. Exemple un k-anonymat avec k=3, chaque combinaison d’âge, de sexe et de diagnostic dans l’ensemble de données devrait être la même pour au moins trois individus.

Donnée anonymisée :

D’autre part, les données anonymisées sont des informations qui ont été traitées de manière à rendre impossible l’identification de la personne concernée par quelque moyen que ce soit. Une fois anonymisées, les données ne peuvent plus être liées à la personne à laquelle elles appartenaient, garantissant ainsi son total anonymat.

L’organisation qui désire garder l’information pour des raisons d’affaires et comprendre l’historique sans avoir besoin d’identifier le sujet peut utiliser l’anonymisation :

Une donnée anonymisée est une information qui a été traitée de manière à rendre impossible l’identification de la personne à laquelle elle se rapporte, que ce soit directement ou indirectement, par tous les moyens raisonnablement susceptibles d’être utilisés.
L’anonymisation est un processus plus rigoureux que la dépersonnalisation. Elle implique souvent une modification plus significative des données pour s’assurer qu’il n’y a aucune possibilité de relier l’information à une personne spécifique.
Une fois correctement anonymisée, une donnée ne peut plus être considérée comme une donnée à caractère personnel selon la plupart des réglementations et des lois sur la protection de la vie privée.

Dans ce tableau, vous pouvez voir un exemple de données anonymisées. Toutes les informations qui pourraient être utilisées pour identifier directement ou indirectement l’individu ont été modifiées ou supprimées. Par exemple, l’âge exact a été remplacé par un groupe d’âge. Cela assure que, même si ces données étaient croisées avec d’autres informations, il serait toujours difficile d’identifier l’individu.

Voici quelques exemples qui illustrent l’utilisation des données anonymisées :

Recherche médicale : Un hôpital veut mener une étude sur l’efficacité d’un nouveau médicament. Pour cela, il recueille des données sur les symptômes des patients, la progression de la maladie et les effets secondaires du médicament. Ces données sont ensuite anonymisées, en supprimant non seulement les noms et les adresses, mais aussi d’autres informations qui pourraient permettre d’identifier les patients, comme l’âge précis, le sexe ou la profession. Les données anonymisées sont alors utilisées pour analyser l’efficacité du médicament sans risquer de révéler l’identité des patients.
Enquêtes d’opinion : Une entreprise de sondages veut mener une enquête sur l’opinion publique concernant une question politique ou sociale. Les participants fournissent leurs opinions, ainsi que des informations démographiques de base. Ces données sont ensuite anonymisées, en supprimant ou en modifiant les informations qui pourraient permettre d’identifier les participants. Les données anonymisées sont alors utilisées pour analyser les tendances d’opinion sans compromettre l’anonymat des participants.
Analyses des données de trafic internet : Une entreprise de technologies peut collecter des données sur l’utilisation d’internet, comme le temps passé sur différents sites web, les liens cliqués, et les recherches effectuées. Ces données sont ensuite anonymisées en supprimant toutes les informations qui pourraient permettre d’identifier les utilisateurs. Les données anonymisées sont alors utilisées pour comprendre les habitudes et les tendances d’utilisation d’internet, sans compromettre la vie privée des utilisateurs.

Loi sur la protection des renseignements personnels dans le secteur privé

Article 23 — Lorsque les fins auxquelles un renseignement personnel a été recueilli ou utilisé sont accomplies, la personne qui exploite une entreprise doit le détruire ou l’anonymiser pour l’utiliser à des fins sérieuses et légitimes, sous réserve d’un délai de conservation prévu par une loi.

Pour l’application de la présente loi, un renseignement concernant une personne physique est anonymisé lorsqu’il est, en tout temps, raisonnable de prévoir dans les circonstances qu’il ne permet plus, de façon irréversible, d’identifier directement ou indirectement cette personne.

Les renseignements anonymisés en vertu de la présente loi doivent l’être selon les meilleures pratiques généralement reconnues et selon les critères et modalités déterminés par règlement.

Risque de ré-identification de donnée anonymisée

Individu : Groupe d’âge 30–40 ans, Résidant à Laval, Diagnostiqué avec une maladie rare (par exemple, une forme spécifique de maladie génétique).

Il est possible qu’un chercheur ou un journaliste, en croisant ces informations avec d’autres bases de données publiques ou des rapports spécifiques sur des cas de maladies rares, puisse potentiellement identifier les individus concernés.

Imaginons l’exemple, d’un article de journal qui a déjà parlé d’une personne dans cette tranche d’âge vivant à Laval et souffrant de cette maladie rare, il serait possible de faire le lien avec les données anonymisées.

Dans ce cas, bien que les données aient été anonymisées en supprimant les identifiants directs et en généralisant certaines informations, la rareté de la condition et la spécificité de la région géographique permettent potentiellement de ré-identifier l’individu.

Par cet exemple, je souhaite démontrer que même l’anonymisation peut avoir ses limites, en particulier lorsque les données portent sur des caractéristiques ou des conditions rares ou distinctives.

Technique d’anonymisation de donnée

Il existe diverses méthodes pour anonymiser des données, chacune offrant des niveaux de sécurité et des utilités différentes. Voici quelques-unes des méthodes les plus couramment utilisées :

Suppression des données : C’est la méthode la plus simple. Elle consiste à supprimer toutes les informations d’identification d’un ensemble de données.
Brouillage des données : Cette méthode modifie les données d’identification en les brouillant ou en les rendant moins précises. Par exemple, une date de naissance précise pourrait être transformée en une année de naissance, ou une adresse précise pourrait être transformée en un code postal.
Perturbation des données : Cette méthode implique l’ajout de « bruit » aux données afin de masquer les informations d’identification. Cela peut inclure des techniques comme l’ajout de valeurs aléatoires aux données.
Agrégation des données : Cette méthode regroupe les données au niveau d’une catégorie supérieure pour éviter l’identification des individus. Par exemple, une entreprise peut agréger les données de vente par région au lieu de les signaler au niveau du magasin individuel.

Chaque méthode a ses propres avantages et inconvénients et le choix de la méthode dépendra de l’objectif de l’anonymisation et du niveau de protection requis.

Voilà qui explore la distinction entre les données dépersonnalisées et les données anonymisées. Les données dépersonnalisées sont celles dont certains éléments permettant d’identifier une personne ont été supprimés mais qui pourraient encore permettre une ré-identification.

Les données anonymisées, en revanche, ont été traitées de manière à empêcher toute identification future, offrant ainsi un niveau de protection des informations personnelles significativement plus élevé.

Nous avons exploré divers exemples d’utilisation de données anonymisées, tels que la recherche médicale, les enquêtes d’opinion et l’analyse du trafic internet.

Finalement, il est essentiel de comprendre la différence entre les données dépersonnalisées et anonymisées pour toute entreprise manipulant des informations personnelles, d’un point de vue éthique, mais aussi pour se conformer aux lois et réglementations en vigueur.

Source:

A guide to the EU's unclear anonymization standards
This article examines why there are conflicting guides on anonymization standards and offers recommendations on how to…iapp.org

Je vous invite à cliquer sur “Follow” pour continuer d’en apprendre plus sur le domaine de la sécurité de l’information.

Patrick Boucher

Président fondateur
25+ ans d’expérience en sécurité, piratage éthique, continuité des affaires

Écrivez-nous

Formulaire Sticky Services

Envie de travailler avec nous ?

Parlez-nous de vos enjeux. On verra rapidement si on est la bonne équipe pour vous.