L’acquisition de Fitbit par Google pour 2 milliards de dollars le mois dernier a suscité l’inquiétude des défenseurs de la vie privée inquiets de la manière dont le géant de la technologie utilisera les données de fitness personnelles. Cette réaction a incité le géant de la technologie à préciser que l’acquisition concerne « les appareils, pas les données ».
L’accord a mis en lumière un problème plus vaste que nous semblons tous ignorer: chaque jour, des millions de personnes partagent publiquement des informations de santé personnelles apparemment inoffensives avec de nombreuses parties prenantes, y compris des employeurs, des compagnies d’assurance, des fournisseurs et même publiquement sur Internet.
Cela devient particulièrement préoccupant à une époque où il y a littéralement des centaines d’études cliniques, dont certaines avec des centaines de milliers de participants, qui peuvent demander la permission d’utiliser les mêmes données de suivi de la condition physique pour tout étudier, de l’obésité aux symptômes du COVID-19. Au service de la santé publique, bon nombre de ces ensembles de données sont ensuite rendus publics pour permettre à d’autres chercheurs de reproduire leurs recherches ou d’effectuer de nouvelles recherches. Mais ce n’est pas une situation sans risque.
Exemples de données d’étape à granularité fine partagées sur les réseaux sociaux publics: plate-forme Garmin connect (à gauche), étapes Fitbit partagées automatiquement sur Twitter (à droite).
Dans un monde où les participants à une étude «anonymisés» peuvent être ré-identifiés individuellement simplement en utilisant une base de données de généalogie, ce n’est pas un grand pas d’imaginer des acteurs malveillants capables de découvrir la véritable identité d’un participant à une étude en triangulant quelque chose d’aussi simple que votre pas compte.
Considérez que les données de fitness telles que le nombre de pas ne sont qu’une séquence de nombres, tout comme l’ADN est une séquence des nucléotides C, G, T et A. À mesure que la longueur de la séquence augmente, la probabilité que quelqu’un ait exactement cette séquence pour certains la date donnée diminue de façon exponentielle.
Seulement six jours de comptage de pas suffisent pour vous identifier de manière unique parmi 100 millions d’autres personnes. Le nombre de pas est une clé unique qui peut être utilisée pour faire correspondre le journal des pas hebdomadaire de votre dernier Tweet au nombre de pas « anonymisé » dans un ensemble de données de recherche – un ensemble de données qui peut également répertorier d’autres informations sensibles, comme un diagnostic de santé mentale. Sans une correction de cap, exposer ces données à l’aide de ces types de tentatives de ré-identification deviendra de plus en plus facile, comme cela a été le cas pour d’autres ensembles de données complexes dans le passé.
Schémas d’une attaque de ré-identification basée sur des données portables. Une personne souffrant d’une maladie cardiaque décide de participer à une étude de recherche qui recueille des informations sur l’activité physique au moyen d’un appareil portable, en plus des informations sur son état (1). Le participant utilise également un réseau social pour partager les résultats de son activité physique et se fixer des objectifs hebdomadaires (2). À la fin de l’étude, les données de la recherche sont anonymisées et rendues publiques (3). Un acteur malveillant peut récupérer l’ensemble de données anonymisées et les données publiées sur le réseau social et les faire correspondre sur la série chronologique d’activité physique (4). L’acteur malveillant peut ré-identifier le participant à l’étude et lier son identité de réseau social à la condition médicale (5).
Pour réduire ces risques, nous assisterions idéalement à des changements fondamentaux dans les modèles commerciaux des entreprises qui collectent des données de fitness. En attendant, nous devons éduquer les participants à la recherche sur les risques de fuite de leurs données portables via d’autres canaux. Si quelqu’un s’inscrit à une étude qui implique l’utilisation de son propre portable, les chercheurs doivent l’avertir de désactiver les tableaux de bord publics et de dissocier d’autres applications en utilisant ses données si la personne est préoccupée par sa vie privée.
Les chercheurs doivent également s’assurer que les ensembles de données ne sont pas naïvement libéré dans le domaine public, mais plutôt limité à des chercheurs qualifiés qui s’engagent à respecter la vie privée des participants. Pour divulguer des données sans restriction, les chercheurs doivent prouver à la fois un consentement éclairé significatif à la publication et prouver une véritable désidentification. (Des méthodes issues de la confidentialité différentielle ont récemment été utilisées par Google pour les publications de données pertinentes au COVID-19, ainsi que par le recensement américain pour la réalisation du recensement 2020. Cependant, ces méthodes sont encore en phase de recherche pour les données de fitness.)
À un niveau plus large, la sensibilité des données sur la condition physique va au-delà du risque élevé de ré-identification des personnes, créant ainsi un risque réel pour chaque individu possédant un produit de santé numérique. Les données de forme physique contiennent des informations sur notre cœur, notre sommeil et nos poumons – et bientôt, elles contiendront des informations sur notre cognition.
Demander à chacun de nous de gérer ce type de risque au fil du temps en tant qu’individus est inacceptable, d’autant plus que les collecteurs, les agrégateurs et les utilisateurs de ces données n’ont pas de restrictions en place pour les forcer à prendre en compte l’éthique, la confidentialité des données et l’antidiscrimination.
Nous avons besoin d’une réforme systémique par le biais d’une législation concernant les spécimens numériques qui reflète la loi sur la non-discrimination des informations génétiques (GINA). GINA protège le droit constitutionnel à la confidentialité des informations génétiques des Américains en matière d’assurance maladie et d’emploi. Il est plus que temps de créer ces mêmes protections en matière de fitness et d’autres données de santé capturées numériquement – et non protégées -.
Les dispositifs portables et autres capteurs peuvent transformer la façon dont nous comprenons la santé des individus et des populations, et ils peuvent le faire à grande échelle. Cependant, pour nous assurer que nous déployons ces outils pour aider à améliorer la vie et ne pas leur nuire, de meilleures protections de la vie privée sont nécessaires. Immédiatement.
-
Economie des données personnelles et de la vie privée Fabrice Rochelandet La DécouverteFabrice Rochelandet6,19 €
-
Fabrice Rochelandet Economie Des Données Personnelles Et De La Vie PrivéeBinding : Taschenbuch, Label : Editions La Découverte, Publisher : Editions La Découverte, medium : Taschenbuch, publicationDate : 2010-03-11, authors : Fabrice Rochelandet, languages : french, ISBN : 27071576514,99 €
-
Arnaud Belleil E-Privacy. Le Marche Des Donnees Personnelles : Protection De La Vie Privee A L'Age D'InternetBinding : Taschenbuch, Label : Dunod, Publisher : Dunod, PackageQuantity : 1, medium : Taschenbuch, publicationDate : 2001-09-08, authors : Arnaud Belleil, ISBN : 210005615823,40 €