La vérité sur les données anonymes

De nombreuses entreprises qui traitent des informations personnelles rassurent leurs utilisateurs en affirmant que toutes les données sont « anonymisées » . Si vous ne connaissez pas à fond le domaine, cela semble rassurant.

Cependant, la méthode utilisée par la plupart des entreprises pour anonymiser les données et la taille des bases de données modernes font qu’il est facile pour les attaquants de ré-identifier les individus.

Qu’il s’agisse de dossiers médicaux
ou de données de téléphones portables

…il suffit d’une douzaine d’informations pour trouver la personne qui se cache derrière chaque dossier « anonyme ».

Comment s’assurer que les gens comprennent les risques liés au partage des données ?

Pour assurer la sécurité de vos données, il faut les partager uniquement avec des organisations dignes de confiance qui indiquent clairement quelles données elles collectent et ce qu’elles en font.

Tout le monde laisse une trace

Par définition, les données véritablement anonymes sont dépouillées de tous les éléments qui pourraient éventuellement identifier la bonne personne

Le mode d’anonymisation le plus populaire consiste à supprimer d’une base de données les informations permettant d’identifier une personne, comme :

votre nom
votre date de naissance
votre numéro de téléphone
votre adresse personnelle, etc.

À première vue, cela peut sembler suffisant pour protéger votre vie privée

Cependant, lorsque vous commencez à superposer différents types de données, vous pouvez commencer à identifier des personnes. En fait, une société d’anonymisation des données, Aircloak, reconnaît même qu’une véritable anonymisation est extrêmement difficile :

« Comme c’est le cas pour la sécurité informatique, aucune garantie à 100 % ne peut être donnée, et il est souvent nécessaire de procéder à une évaluation des risques. »

Un dossier médical « anonyme » peut être croisé avec une autre source d’information (par exemple, une brève de journal) pour identifier le nom du patient.

➽ Il suffit de 15 points de données pour que 99,98 % des personnes soient identifiables dans une base de données de 7 millions de personnes, selon un article publié dans Nature.

15 attributs de données peuvent sembler beaucoup, mais ce n’est pas le cas. Le rapport fait référence à la violation de données d’Experian, qui a divulgué une base de données « anonymisée » contenant 248 points de données sur 120 millions d’Américains.

Les grandes campagnes politiques conservent également des bases de données massives (et les distribuent à leurs alliés) qui comprennent des centaines de points de données sur leurs sujets.

Si une base de données contient moins de personnes, il devient nettement plus facile de ré-identifier les individus.

Pourquoi cela est-il important ?

✍️

Maj'Article IA — Service Humain + IA

Je mets à jour ou crée vos articles personnellement, assisté par l'IA, avec optimisation SEO incluse.

📝 Mise à jour	14 €
✨ Création	49 €

🚀 Commander maintenant

✅ Livraison 24h • ✅ Facture fournie • ✅ Optimisation SEO incluse

La réidentification des données contenues dans une base de données prétendument anonymisée n’est pas seulement une astuce statistique pour les universitaires. Elle a des conséquences dans le monde réel.

➽ Les données anonymisées sont traitées différemment car elles sont censées protéger la vie privée des personnes concernées.

Aux États-Unis, les dossiers médicaux anonymisés peuvent être vendus à des sociétés pharmaceutiques. Une pratique similaire est autorisée au Royaume-Uni.

Certains pays parviennent mieux à exiger une anonymisation efficace. Le GDPR de l’Union européenne couvre ce point dans son considérant 26, qui stipule que les données doivent être réellement anonymes pour être exemptées des règles de protection des données du règlement.

➽ Il existe des méthodes d’anonymisation, telles que la généralisation ou la perturbation des données, qui sont très efficaces

Toutefois, cette question ne se limite pas aux difficultés techniques que présente l’anonymisation. Elle soulève également les promesses trompeuses que font les entreprises lorsqu’elles parlent de la manière dont elles traitent vos données.

L’analyse des données peut offrir de nombreux avantages aux citoyens, aux organisations et aux gouvernements, et il est légitime de collecter et d’analyser des données à des fins spécifiques.

Le projet de recherche des contacts préservant la vie privée est un exemple de la manière dont la collecte de données pourrait être utilisée pour retracer les infections au COVID-19 tout en protégeant la vie privée des individus.

➽ Cependant, la collecte de données doit toujours être clairement expliquée à la personne concernée, et les gens doivent toujours avoir le choix

De nombreuses entreprises présentent des politiques de confidentialité vagues ou difficiles à déchiffrer qui rendent presque impossible pour les personnes concernées de savoir quelles données sont collectées et avec qui elles sont partagées.

Ces entreprises considèrent l’anonymisation comme un moyen de vendre des données tout en respectant les exigences minimales en matière de sécurité des données.

Cependant, si des acteurs malveillants peuvent vous ré-identifier à partir de données anonymisées, cela soulève des questions éthiques sur un tel modèle économique.

En tant qu’utilisateur, cela signifie que vous devriez évaluer encore plus attentivement les entreprises avec lesquelles vous partagez des données.
Et les entreprises devraient, à tout le moins, informer leurs utilisateurs du risque de réidentification avant de partager leurs données.

Dans le cas contraire, il est impossible pour les utilisateurs de donner leur consentement éclairé.

➽ Si vraiment vous souhaitez être anonyme lorsque vous publiez un commentaire ou un article sur internet, il vous faut un VPN.

Ce type de logiciel maquille votre adresse IP, cache votre identité et chiffre votre connexion.

NordVPN est basé au Panama pour éviter l’obligation d’enregistrement des historiques (très rapide).

LeVPN est moins cher, français, basé à Singapour pour les mêmes raisons (moins diversifié).

Techniques d’anonymisation des données

Comment est faite l’anonymisation des données ?

Masquage des données – dissimuler des données dont les valeurs ont été modifiées. Vous pouvez créer une version miroir d’une base de données et appliquer des techniques de modification telles que le brassage de caractères, le chiffrement et la substitution de mots ou de caractères. Par exemple, vous pouvez remplacer un caractère de valeur par un symbole tel que « * » ou « x ».
Pseudonymisation : méthode de gestion et de dépersonnalisation des données qui remplace les identifiants privés par de faux identifiants ou des pseudonymes, par exemple en remplaçant l’identifiant « John Smith » par « Mark Spencer ». La pseudonymisation préserve la précision statistique et l’intégrité des données, ce qui permet d’utiliser les données modifiées pour la formation, le développement, les tests et l’analyse, tout en protégeant la confidentialité des données.
Généralisation : suppression délibérée d’une partie des données pour les rendre moins identifiables. Les données peuvent être modifiées en un ensemble de plages ou en une vaste zone avec des limites appropriées. Vous pouvez supprimer le numéro de maison dans une adresse, mais veillez à ne pas supprimer le nom de la route. L’objectif est d’éliminer une partie des identifiants tout en conservant une certaine précision des données.
Échange de données – également connu sous le nom de brassage et de permutation, il s’agit d’une technique utilisée pour réorganiser les valeurs des attributs de l’ensemble de données afin qu’elles ne correspondent pas aux enregistrements originaux. La permutation des attributs qui contiennent des valeurs d’identification telles que la date de naissance, par exemple, peut avoir plus d’impact sur l’anonymisation que les valeurs de type d’appartenance.
Perturbation des données – modifie légèrement l’ensemble de données d’origine en appliquant des techniques qui arrondissent les chiffres et ajoutent du bruit aléatoire. L’éventail des valeurs doit être proportionnel à la perturbation. Une petite base peut entraîner une faible anonymisation, tandis qu’une grande base peut réduire l’utilité de l’ensemble de données. Par exemple, vous pouvez utiliser une base de 5 pour arrondir des valeurs comme l’âge ou le numéro de maison, car elle est proportionnelle à la valeur originale. Cependant, l’utilisation de bases plus élevées, comme 15, peut donner l’impression que les valeurs d’âge sont fausses.
Données synthétiques – informations fabriquées de manière algorithmique et n’ayant aucun lien avec des événements réels. Les données synthétiques sont utilisées pour créer des ensembles de données artificielles au lieu de modifier l’ensemble de données original ou de l’utiliser tel quel et de mettre en danger la vie privée et la sécurité. Le processus implique la création de modèles statistiques basés sur des schémas trouvés dans l’ensemble de données original. Vous pouvez utiliser les écarts types, les médianes, la régression linéaire ou d’autres techniques statistiques pour générer les données synthétiques.

Inconvénients de l’anonymisation des données

Le GDPR stipule que les sites web doivent obtenir le consentement des utilisateurs pour collecter des informations personnelles telles que :

les adresses IP
l’ID des appareils
et les cookies

La collecte de données anonymes et la suppression des identifiants de la base de données limitent votre capacité à tirer de la valeur et des informations de vos données.

Les données anonymes ne peuvent pas être utilisées pour des efforts de marketing, ni pour personnaliser l’expérience utilisateur.

➽ A lire sur notre blog

➽ Liens externes

Simplification de l’enregistrement et de la publication des maladies oncologiques, Berne, 17 novembre 2021
Feten BEN FREDJ , 3 Juillet 2017, Méthode et outil d’anonymisation des données sensibles

➽ Abonnez-vous à notre newsletter

L’anonymation de donnée n’est pas forcément réalisée dans la pratique, c’est là que se situe le faux problème.
Votre fournisseur d’accès peut TOUJOURS vous identifier.
Mais au niveau d’un site internet ou d’une organisation on peut parfaitement anonymiser les données, c’est la base de la sécurité des données.
Tôt ou tard quelqu’un récupérera une partie des données échangées.
Dans un premier temps le chiffrement de bout à bout est une première protection (on ne parle pas de VPN mais du transite des données entre le client et le site).
On ne stock plus d’adresse IP non plus (sauf sur les logs des serveurs, ce qui est obligatoire pour réagir en cas d’attaque), on effectue un hashage de celle-ci, souvent salée avec le nom du serveur, ce qui ne permet pas de croiser les données.
On ne stock pas un mot de passe en clair, là aussi on utilise plutôt un hachage salé ce coup-ci avec l’identifiant. Les empreintes des mots de passe sont alors comparées, il est très difficile de reconstituer ce type de données, elle nécessitent des années ou un grand coup de chance, bien sure, changer le mot de passe régulièrement empêche souvent l’exploitation de ces données.
Bref, en réalité les données sont belles et bien enregistrées, mais n’ont que très rarement d’impacte sur votre vie, l’essentiel étant de ne pas pouvoir faire le lien entre vous (physiquement) et des données collectées.
Il existe de nombreuses bases de données dans lesquelles vos informations personnelles apparaissent et quelque soit le niveau de chiffrement elles sont potentiellement vulnérable, citons par exemple, le ticket commerçant d’une carte bancaire, sur lequel votre numéro de carte bancaire apparait toujours en clair (pour de bonnes raisons), votre carte bancaire, elle même intégrant un système RFID avec lequel on peut très facilement récupérer votre numéro de carte, la date de validité et le nom du porteur, vos données dans les divers établissements public à la sécurité douteuse (mairies et autre collectivisées), les organismes de crédit et banques (oui, ils partagent les fichiers client), le fichier des nouveaux voisins (obligatoire quand vous déclarez vos changement d’adresse) et j’en passe (plaques d’immatriculation, données GPS, cartes de fidélité ou comptes en ligne connectés comme google, github, wordpress…).
L’anonymat n’est pas une finalité en soit, l’informatique n’est pas responsable de ces pratiques, elles existaient bien avant mais ne généraient pas d’argent par la vente de protection fallacieuses (hein, nordvpn). Un VPN n’est pas anonyme quand on paie avec une carte bancaire le service.
On peut et on doit anonymiser les données, il faut savoir que la RGPD contrairement au raisonnement naïf ne se base pas sur des obligations de moyens (je sais, c’est pourtant ce qui est écrit) mais sur des obligations de résultat, on a uniquement des problèmes en cas de fuite de données, de repérage de celles-ci par un groupe d’utilisateur puis d’une action en justice, ça fait beaucoup de barrières à franchir et beaucoup de preuves à fournir, un dernier point, ce n’est pas l’informaticien le responsable, mais le dirigeant de l’entreprise, ce qui est compréhensible, mais ce qui explique les solutions orienté rentabilité (ne rien faire) plutôt que les solutions techniques peu couteuses et efficaces. En cas de problème un changement de raison sociale s’impose donc.
Pour les cookies, ils peuvent vous protéger contrairement à ce que certaines personnes très incompétentes prétendent. C’est le principe par exemple, des identifications par JWT, lorsque vous entrez votre nom d’utilisateur et votre mot de passe, une clé stockée dans un cookie permet d’obtenir une clé temporaire, que votre navigateur va envoyer dans les en têtes de chaque requête au serveur, elle permet de vous identifier sur le site, elle change toutes les 60 secondes en général, votre navigateur réutilise les données du cookie pour obtenir une nouvelle clé valide auprès du serveur d’identification, votre mot de passe ne se balade dont pas sur le réseau en permanence, il n’est même pas nécessaire de le conserver en mémoire. Ce n’est là qu’une exemple d’identification par cookie.
D’autres protections basées sur des données unique permettent d’éviter l’usurpation d’identité, comme le numéro unique de navigateur (nouvel appareil détecté).
Des données dans les CSRF (des champs cachés dans les formulaires) évitent qu’une personne malveillante ne vous transmette un lien par email permettant d’effectuer des actions en votre nom.
Les cookies ne peuvent par défaut, tout comme le cache HTML5 n’être lu QUE par et depuis le site qui les a émis.
Rien n’empêche en revanche cette page d’utiliser gravatar.com, feedblitz.com, netdna-ssl.com et plein d’autres copains en arrière plan. Chacun de ces sites ayant accès à l’URL de la page appelante, votre IP et les headers qui l’accompagne. 😀

2 réflexions au sujet de “La vérité sur les données anonymes”

cGIfl300
1 décembre 2021 à 11 h 46 min
L’anonymation de donnée n’est pas forcément réalisée dans la pratique, c’est là que se situe le faux problème.
Votre fournisseur d’accès peut TOUJOURS vous identifier.
Mais au niveau d’un site internet ou d’une organisation on peut parfaitement anonymiser les données, c’est la base de la sécurité des données.
Tôt ou tard quelqu’un récupérera une partie des données échangées.
Dans un premier temps le chiffrement de bout à bout est une première protection (on ne parle pas de VPN mais du transite des données entre le client et le site).
On ne stock plus d’adresse IP non plus (sauf sur les logs des serveurs, ce qui est obligatoire pour réagir en cas d’attaque), on effectue un hashage de celle-ci, souvent salée avec le nom du serveur, ce qui ne permet pas de croiser les données.
On ne stock pas un mot de passe en clair, là aussi on utilise plutôt un hachage salé ce coup-ci avec l’identifiant. Les empreintes des mots de passe sont alors comparées, il est très difficile de reconstituer ce type de données, elle nécessitent des années ou un grand coup de chance, bien sure, changer le mot de passe régulièrement empêche souvent l’exploitation de ces données.
Bref, en réalité les données sont belles et bien enregistrées, mais n’ont que très rarement d’impacte sur votre vie, l’essentiel étant de ne pas pouvoir faire le lien entre vous (physiquement) et des données collectées.
Il existe de nombreuses bases de données dans lesquelles vos informations personnelles apparaissent et quelque soit le niveau de chiffrement elles sont potentiellement vulnérable, citons par exemple, le ticket commerçant d’une carte bancaire, sur lequel votre numéro de carte bancaire apparait toujours en clair (pour de bonnes raisons), votre carte bancaire, elle même intégrant un système RFID avec lequel on peut très facilement récupérer votre numéro de carte, la date de validité et le nom du porteur, vos données dans les divers établissements public à la sécurité douteuse (mairies et autre collectivisées), les organismes de crédit et banques (oui, ils partagent les fichiers client), le fichier des nouveaux voisins (obligatoire quand vous déclarez vos changement d’adresse) et j’en passe (plaques d’immatriculation, données GPS, cartes de fidélité ou comptes en ligne connectés comme google, github, wordpress…).
L’anonymat n’est pas une finalité en soit, l’informatique n’est pas responsable de ces pratiques, elles existaient bien avant mais ne généraient pas d’argent par la vente de protection fallacieuses (hein, nordvpn). Un VPN n’est pas anonyme quand on paie avec une carte bancaire le service.
On peut et on doit anonymiser les données, il faut savoir que la RGPD contrairement au raisonnement naïf ne se base pas sur des obligations de moyens (je sais, c’est pourtant ce qui est écrit) mais sur des obligations de résultat, on a uniquement des problèmes en cas de fuite de données, de repérage de celles-ci par un groupe d’utilisateur puis d’une action en justice, ça fait beaucoup de barrières à franchir et beaucoup de preuves à fournir, un dernier point, ce n’est pas l’informaticien le responsable, mais le dirigeant de l’entreprise, ce qui est compréhensible, mais ce qui explique les solutions orienté rentabilité (ne rien faire) plutôt que les solutions techniques peu couteuses et efficaces. En cas de problème un changement de raison sociale s’impose donc.
Pour les cookies, ils peuvent vous protéger contrairement à ce que certaines personnes très incompétentes prétendent. C’est le principe par exemple, des identifications par JWT, lorsque vous entrez votre nom d’utilisateur et votre mot de passe, une clé stockée dans un cookie permet d’obtenir une clé temporaire, que votre navigateur va envoyer dans les en têtes de chaque requête au serveur, elle permet de vous identifier sur le site, elle change toutes les 60 secondes en général, votre navigateur réutilise les données du cookie pour obtenir une nouvelle clé valide auprès du serveur d’identification, votre mot de passe ne se balade dont pas sur le réseau en permanence, il n’est même pas nécessaire de le conserver en mémoire. Ce n’est là qu’une exemple d’identification par cookie.
D’autres protections basées sur des données unique permettent d’éviter l’usurpation d’identité, comme le numéro unique de navigateur (nouvel appareil détecté).
Des données dans les CSRF (des champs cachés dans les formulaires) évitent qu’une personne malveillante ne vous transmette un lien par email permettant d’effectuer des actions en votre nom.
Les cookies ne peuvent par défaut, tout comme le cache HTML5 n’être lu QUE par et depuis le site qui les a émis.
Rien n’empêche en revanche cette page d’utiliser gravatar.com, feedblitz.com, netdna-ssl.com et plein d’autres copains en arrière plan. Chacun de ces sites ayant accès à l’URL de la page appelante, votre IP et les headers qui l’accompagne. 😀
Grégory Hénique
29 novembre 2021 à 23 h 06 min
Visitor Rating: 5 Stars

La vérité sur les données anonymes

Tout le monde laisse une trace

Par définition, les données véritablement anonymes sont dépouillées de tous les éléments qui pourraient éventuellement identifier la bonne personne