Qu’est-ce que la ré-identification des données ?

Il y a une différence entre données pseudonymisées, anonymisées, et des données réindentifiables ! Et cela peut jouer sur votre gestion des données personnelles et leur conformité.

RGPD Données

Article publié le 04/03/2024, dernière mise à jour le 04/03/2024

Selon le site de la CNIL, l’anonymisation d’une donnée est définie comme “un traitement qui consiste à utiliser un ensemble de techniques de manière à rendre impossible, en pratique, toute identification de la personne par quelque moyen que ce soit et de manière irréversible.”

Mais en réalité, la majorité des systèmes d’informations pratiquent plutôt la pseudonymisation

Cela consiste à retirer tous liens entre les données d’une personne et les informations qui peuvent l’identifier (nom, prénom, email, téléphone,…) et à remplacer ces informations par des identifiants génériques (UUID, hash, séquences alphanumériques,…).

Le problème avec les données pseudonymes, c’est qu’à partir d’une certaine quantité d’informations, reliées à un même identifiant anonyme, il est parfois possible de “ré-identifier” ces fameuses données.

Prenons un exemple théorique, basé sur les informations de santé d’une personne pseudonymisée :

Sexe : Masculin
Nationalité : Française
Taille : 1m90
Poids : 110kg
IMC : 30,5
Date de naissance : 26 Novembre 1993
Pathologies : Hypermétropie, Daltonisme, Diabète

Il suffit de trouver les pourcentages liés à ces caractéristiques dans la population Française : Naissances en 1993 (711 610), Diabète (5,3%), Hypermétropie (10%), Daltonisme (8%) IMC Obésité (17%), Taille ≥ 1m90 (4,3%).

En calculant la probabilité cumulée, on tombe sur… 2,2 personnes en France qui cumulent ce même profil de santé.

Cela signifie que si l’on retrouve ce même profil dans un autre jeu de donnée, il y a seulement 1 chance sur 2 que la personne soit la même, et que l’on puisse ré-identifier nos données.

Et il suffirait d’un point de donnée supplémentaire (couleur de peau, couleur des yeux, des cheveux, type de diabète, etc…) pour identifier de manière parfaitement unique ce profil.

Vous savez maintenant comment fonctionne (en partie) le concept de ré-identification des données.

nicolasbrondinbernard_a_health_card_for_a_30yo_man._100_white_b_1ad4aa2a-7a87-4677-b041-199b4dddc8d2.png

Un cas pratique

En 2017, les chercheurs Svea Eckert et Andreas Dewes, originaires d’Allemagne, ont présenté à la DEFCON 17 un exemple de ré-identification des données très parlant pour deux raisons :

La masse de données utilisée
La qualité des informations récupérées

L’expérience c’est déroulée sur des données anonymisées de 3 millions de citoyens allemands, et leurs historiques de navigation contenant plus de 3 milliards d’URL visitées !

Chaque URL était liée à un identifiant unique de navigation, mais sans aucune donnée personnelle pour le relier à une personne en particulier.

Donc en théorie, des données anonymisées pour respecter la vie privée des utilisateurs

Et pourtant, grâce à de simples techniques de ré-identifications, l’équipe de chercheurs a pu remonter des données très précises comme :

Les catégories pornographiques préférées d’un juge
Les ordonnances médicales d’un premier ministre
Les détails d’une enquête de police en cours de résolution
Et bien d’autres informations sur des profils importants en Allemagne

Leur méthode : un simple paramètre d’URL

En effet, la plateforme de mise en relation professionnel la plus populaire en Allemagne “Xing”, soit l’équivalent de LinkedIn, possède un détail technique qui parait insignifiant.

Lorsque vous visitez votre propre profil (contenant votre nom/prénom), la plateforme injecte un paramètre dans l’URL : ?sc_omxb_p

Le résultat ? Chaque historique anonymisé qui contenait une URL avec ce paramètre pouvait être instantanément relié au propriétaire du profil.

À cause d’un simple choix technique, les données de millions de citoyens ont donc pu être réidentifiée, ce qui, au yeux de la RGPD, constitue des données personnelles et donc une violation de la réglementation.

Soyez vigilants

Vous utilisez un moyen de traçage de vos visiteurs à des fins statistiques et vous pensez vos données sûres ? Il se peut que vous stockiez des données anonymes en apparence, mais qui peuvent être réidentifiées !

Les choix techniques des outils de statistiques peuvent jouer un grand rôle dans votre conformité finale vis-à-vis de la RGPD

Chez Code-Garage, nous utilisons Plausible qui ne stocke que les données minimum pour suivre le traffic sur le site , comme on l’explique dans cet article.

Le fingerprinting

Le “fingerprinting” consiste à réidentifier de manière unique la machine d’un utilisateur grâce à différents points de données récupérés depuis le navigateur de la personne.

C’est une autre méthode de réidentification, encore une fois liée à des contraintes techniques !

Si vous souhaitez en savoir plus sur ce concept, consultez notre article dédié

Vous avez terminé l'article ?

Aucun commentaire pour l'instant