Qu’est-ce que la ré-identification des données ?
Il y a une différence entre données pseudonymisées, anonymisées, et des données réindentifiables ! Et cela peut jouer sur votre gestion des données personnelles et leur conformité.
Article publié le 04/03/2024, dernière mise à jour le 04/03/2024
Selon le site de la CNIL, l’anonymisation d’une donnée est définie comme “un traitement qui consiste à utiliser un ensemble de techniques de manière à rendre impossible, en pratique, toute identification de la personne par quelque moyen que ce soit et de manière irréversible.”
Mais en réalité, la majorité des systèmes d’informations pratiquent plutôt la pseudonymisation
Cela consiste à retirer tous liens entre les données d’une personne et les informations qui peuvent l’identifier (nom, prénom, email, téléphone,…) et à remplacer ces informations par des identifiants génériques (UUID, hash, séquences alphanumériques,…).
Le problème avec les données pseudonymes, c’est qu’à partir d’une certaine quantité d’informations, reliées à un même identifiant anonyme, il est parfois possible de “ré-identifier” ces fameuses données.
Prenons un exemple théorique, basé sur les informations de santé d’une personne pseudonymisée :
- Sexe : Masculin
- Nationalité : Française
- Taille : 1m90
- Poids : 110kg
- IMC : 30,5
- Date de naissance : 26 Novembre 1993
- Pathologies : Hypermétropie, Daltonisme, Diabète
Il suffit de trouver les pourcentages liés à ces caractéristiques dans la population Française : Naissances en 1993 (711 610), Diabète (5,3%), Hypermétropie (10%), Daltonisme (8%) IMC Obésité (17%), Taille ≥ 1m90 (4,3%).
En calculant la probabilité cumulée, on tombe sur… 2,2 personnes en France qui cumulent ce même profil de santé.
Cela signifie que si l’on retrouve ce même profil dans un autre jeu de donnée, il y a seulement 1 chance sur 2 que la personne soit la même, et que l’on puisse ré-identifier nos données.
Et il suffirait d’un point de donnée supplémentaire (couleur de peau, couleur des yeux, des cheveux, type de diabète, etc…) pour identifier de manière parfaitement unique ce profil.
Vous savez maintenant comment fonctionne (en partie) le concept de ré-identification des données.
Un cas pratique
En 2017, les chercheurs Svea Eckert et Andreas Dewes, originaires d’Allemagne, ont présenté à la DEFCON 17 un exemple de ré-identification des données très parlant pour deux raisons :
- La masse de données utilisée
- La qualité des informations récupérées
L’expérience c’est déroulée sur des données anonymisées de 3 millions de citoyens allemands, et leurs historiques de navigation contenant plus de 3 milliards d’URL visitées !
Chaque URL était liée à un identifiant unique de navigation, mais sans aucune donnée personnelle pour le relier à une personne en particulier.
Donc en théorie, des données anonymisées pour respecter la vie privée des utilisateurs
Et pourtant, grâce à de simples techniques de ré-identifications, l’équipe de chercheurs a pu remonter des données très précises comme :
- Les catégories pornographiques préférées d’un juge
- Les ordonnances médicales d’un premier ministre
- Les détails d’une enquête de police en cours de résolution
- Et bien d’autres informations sur des profils importants en Allemagne
Leur méthode : un simple paramètre d’URL
En effet, la plateforme de mise en relation professionnel la plus populaire en Allemagne “Xing”, soit l’équivalent de LinkedIn, possède un détail technique qui parait insignifiant.
Lorsque vous visitez votre propre profil (contenant votre nom/prénom), la plateforme injecte un paramètre dans l’URL : ?sc_omxb_p
Le résultat ? Chaque historique anonymisé qui contenait une URL avec ce paramètre pouvait être instantanément relié au propriétaire du profil.
À cause d’un simple choix technique, les données de millions de citoyens ont donc pu être réidentifiée, ce qui, au yeux de la RGPD, constitue des données personnelles et donc une violation de la réglementation.
Soyez vigilants
Vous utilisez un moyen de traçage de vos visiteurs à des fins statistiques et vous pensez vos données sûres ? Il se peut que vous stockiez des données anonymes en apparence, mais qui peuvent être réidentifiées !
Les choix techniques des outils de statistiques peuvent jouer un grand rôle dans votre conformité finale vis-à-vis de la RGPD
Chez Code-Garage, nous utilisons Plausible qui ne stocke que les données minimum pour suivre le traffic sur le site , comme on l’explique dans cet article.
Le fingerprinting
Le “fingerprinting” consiste à réidentifier de manière unique la machine d’un utilisateur grâce à différents points de données récupérés depuis le navigateur de la personne.
C’est une autre méthode de réidentification, encore une fois liée à des contraintes techniques !
Si vous souhaitez en savoir plus sur ce concept, consultez notre article dédié
Aucun commentaire pour l'instant