Votre historique de navigation privée n'est pas vraiment privé

Des chercheurs expliquent comment identifier des utilisateurs à partir d'historiques de navigation "anonymes" achetés sur Internet.

|
août 11 2017, 10:42am

En août 2016, un data-broker a reçu un appel téléphonique d'une femme prénommée Anna Rosenberg. Cette dernière travaillait pour une petite start-up basée à Tel Aviv. Rosenberg lui a expliqué qu'elle entrainait des réseaux de neurones sur des historiques de navigation ; elle avait besoin d'un lot de données de navigation de très grande taille afin de perfectionner son IA. La start-up pour laquelle elle travaillait se portait très bien sur le plan financier, et ne serait pas regardante sur le prix. Cependant, étant donné la quantité de data-brokers peu fiables sur le marché, Rosenberg voulait d'abord faire un essai gratuit avant de lui offrir son argent.

Le jour suivant, Rosenberg a, à son tour, reçu un coup de téléphone. Un commercial représentant le data-broker en question souhaitait lui transmettre les accès dont elle aurait besoin pour utiliser le lot de données de navigation dans le cadre de son essai gratuit. Il acceptait de lui fournir l'historique de navigation complet de 3 millions d'utilisateurs allemands pendant un mois, stipulant que pendant cette période, certaines données de navigation seraient collectées en direct (c'est-à-dire actualisées chaque jour ou presque en fonction de l'activité des utilisateurs).

En vérité, ni Anna Rosenberg, ni la start-up à laquelle elle était censée appartenir n'avaient jamais existé.

Rosenberg était le pseudo de Svea Eckert, une journaliste d'investigation pour le groupe média allemand NDR. Celle-ci enquêtait sur les pratiques commerciales autour des données personnelles, et sur les techniques de désanonymisation des données de navigation Internet collectées et vendues par des plugins tiers installés sur navigateur.

"Je pensais obtenir un essai de trois jours, ou quelque chose du genre", a expliqué Eckert le week-end dernier lors de la Def Con à Las Vegas. "La société que nous avons fondée n'a même pas d'adresse physique, elle n'a jamais été enregistrée. C'est un véritable écran de fumée. On l'a incarnée à l'aide d'un site Web et d'un compte LinkedIn, c'est tout. Nous avons été très surpris que le data-broker nous cède l'accès aux données aussi facilement."

Après avoir reçu son essai gratuit, Eckert s'est associée à Andreas Dewes, un data scientist qui dirige la société 7 Scientists. Le duo voulait savoir s'il était possible d'identifier de manière formelle les individus qui se cachaient derrière ce lot monstrueux de données de navigation. Au premier coup d'oeil, les données en question n'étaient pas particulièrement intéressantes : ce n'était qu'une liste d'URL assorties de timestamps.

Une sélection des données de navigation d'un juge néerlandais identifié comme "anonyme" dans les données en question. Image: Svea Eckert

La première mission d'Eckert consistait à déterminer si ses propres données de navigation faisaient partie du pack. Pour ce faire, elle a demandé les données associées à l'URL de la page de connexion de sa société, qui génère un identifiant unique pour chaque employé. L'Allemagne possède une population d'environ 82 millions de personnes : les chances que les données de navigation d'Eckert aient été recueillies en même temps que celles des 3 millions d'Allemands de l'échantillon étaient plutôt minces.

Elle n'a effectivement pas pu trouver son historique de navigation, mais en interrogeant les données de la page de connexion de sa société, Eckert a découvert qu'un certain nombre de ses collègues faisaient, eux, partie de l'échantillon. Pour le savoir, il lui a suffit de faire correspondre les identifiants de connexion exclusifs de la page de l'entreprise avec les fameuses données de navigation "anonymes".

Munie de ces informations, Eckert aurait pu dérouler tout l'historique de navigation de ses collègues au cours du dernier mois. La démarche aurait été un tantinet intrusive, et consulter ces informations ne l'intéressait pas vraiment. En revanche, elle voulait à tout prix identifier le plugin de navigateur qui avait collecté et vendu ces données sans le moindre remord ; elle a donc contacté l'une des collègues en question - qui était aussi une très bonne amie - et l'a avertie qu'elle avait son historique de navigation en sa possession.

Pour mettre la main sur le plugin coupable, Eckert, sous la surveillance de sa collègue, a supprimé chacun des plugins de navigateur de l'ordinateur de cette dernière à raison d'une suppression toutes les heures, jusqu'à ce que plus aucun des sites qu'elle visitait ne soit publié en direct sur le serveur du data-broker. Après la suppression du 7e plugin, son historique de navigation n'était plus mis à jour. Le coupable avait été trouvé. Ironie de l'histoire, le plugin en question s'appelait Web of Trust, et offrait "des solutions pour effectuer des recherches et naviguer Internet de manière anonyme."

Le plus troublant avec la technique de désanonymisation de Eckert et Dewes, c'est qu'elle peut être utilisée pour attaquer n'importe qui, pour peu que la personne soit active sur les médias sociaux. Pour leur rapport, Eckert et Dewes se sont concentrés sur Twitter et sur l'équivalent allemand de Linkedin, Xing, afin de voir s'ils pouvaient trouver l'historique de navigation de personnalités publiques possédant un profil Twitter.

Lorsque vous cliquez sur la page Analytics sur Twitter, cela vous renvoie à une URL qui inclue votre nom d'utilisateur. Xing possède une fonction similaire. Ainsi, Eckert et Dewes ont pu interroger la base de données du data-broker en cherchant les URL Twitter de plusieurs hommes politiques allemands.

Lorsque les données de navigation de l'un des politiciens en question se trouvait effectivement dans le lot de données, il suffisait de visiter leur profil Twitter et de collecter les derniers liens postés dans leurs tweets. En utilisant ces liens, couplés avec l'URL Twitter publique des individus, Eckert et Dewes ont pu récupérer l'historique Internet complet (sur un mois) de plusieurs personnalités publiques.

Comme Dewes l'a souligné lorsqu'elle s'est exprimée à la Def Con, quelques informations décisives suffisent à identifier un individu dans un lot de données anonymes concernant 3 millions de personnes : pas besoin d'avoir enquêté sur l'individu en question pendant des semaines. Sachant que nos habitudes de navigation sont uniques, 10 visites de 10 sites Web différents suffisent à créer "l'empreinte digitale" de quelqu'un à partir de l'URL de ces sites et de l'heure et la date de visite. C'est tout.

Si vous avez pris l'habitude de tweeter tous les articles intéressants que vous venez de lire, il sera extrêmement facile de retrouver votre trace dans un lot de données de navigation, même si vous utilisez systématiquement la navigation privée. Sachant qu'un tout petit nombre de sites web suffisent à identifier un individu, tenter de de lutter contre cette technique en visitant régulièrement des sites Web de manière aléatoire pour générer du bruit n'aura aucune efficacité, ajoute Dewes. La meilleure stratégie consistera plutôt à supprimer tous les plugins de votre navigateur.

Au cours de leur enquête, Eckert et Dewes ont trouvé l'historique de navigation de plusieurs hommes politiques, et ont pu faire l'inventaire des sites pornographiques qu'ils visitaient régulièrement. Un juge néerlandais se distinguait par son goût prononcé pour le kink, et cette information aurait pu être utilisée contre lui si Eckert et Dewes avaient eu des intentions malveillantes.

Valerie Wilms, membre du parlement allemand, a accepté que les deux chercheurs lui montrent son propre historique de navigation. Lire la liste de tous les sites Web qu'elle avait visité au cours du mois précédent a été un véritable choc. "C'est bouleversant", explique Wilms dans l'article du NDR. "Avec cet historique, on aurait pu me faire chanter pendant des mois."

Selon Eckert, le plus alarmant est que la collecte de données de navigation est parfaitement légale, et que se procurer ces données auprès d'un data-broker ne coûte pas très cher. Après avoir contacté plus de 100 data-brokers, Eckert explique que les prix pratiqués pour un lot de données de navigation similaire à celui-ci variaient entre 10 000 à 500 000 euros. Pour un parti politique important lors d'une campagne présidentielle, c'est une broutille.

Lorsque Eckert et Dewes ont interrogé Web of Trust, la a déclaré que la ventes de l'historique de navigation privée de ses clients était conforme à ses conditions de service, et que ses équipes avaient "tout fait" pour anonymiser parfaitement les données. De toute évidence, ce n'était pas suffisant.

Comme le fait remarquer Eckert, il est essentiel de toujours lire les conditions de service de bout en bout, afin de comprendre lesquelles de vos données personnelles peuvent être vendues à des tiers. Même des entreprises telles que Web of Trust, dont les activités concernent la protection de la vie privée des utilisateurs, n'hésitent pas à revendre des données de navigation privée au plus offrant.

"J'ai le sentiment que les data brokers ne savent pas toujours ce qui se trouve dans les données qu'ils vendent à des tiers", explique Eckert. "Lorsque j'ai passé ces coups de fil en me faisant passer pour Anna Rosenberg, les commerciaux m'ont donné l'impression qu'ils vendaient des patates. Ils n'étaient pas mal intentionnés, juste inconscients."