Seus dados de navegação anônimos não são tão anônimos assim

Graças à venda de dados, identificar usuários e ter acesso a seu histórico virou algo trivial.

por Daniel Oberhaus; Traduzido por Ananda Pieratti
|
08 agosto 2017, 3:17pm

Em agosto de 2016, um corretor de dados recebeu uma ligação de uma mulher chamada Anna Rosenberg, funcionária de uma pequena startup de Tel Aviv, em Israel. Rosenberg alegou estar trabalhando na criação de uma rede neural — um tipo de estrutura digital inspirada no cérebro humano — e que por isso desejava ter acesso aos dados de navegação vendidos pela empresa. Como a startup na qual ela trabalhava tinha um bom financiamento, dinheiro não seria um problema. Mas dada a quantidade de corretores de dados por aí, Rosenberg não planejava fechar um contrato com qualquer um. Antes de assinar qualquer documento, ela queria um teste grátis.

Um dia após Rosenberg entrar em contato com o corretor, recebeu um telefonema. Um vendedor que representava o corretor em questão deu à Rosenberg as informações que ela precisava para acessar o banco de dados disponível em seu teste gratuito. O corretor deu à Rosenberg acesso ao histórico de navegação de 3 milhões de internautas alemães durante um mês, com a condição de que durante parte desse período, uma parcela dos dados de navegação seria obtida em tempo real (isto é, descartada e renovada a cada dia).

Havia apenas um problema: nem Anna Rosenberg nem a startup que ela alegava representar existiam.

Rosenberg era um pseudônimo de Svea Eckert, jornalista investigativa do conglomerado de mídia alemão NDR que estava investigando a venda de dados de navegação, em particular a venda de dados supostamente anônimos coletados e vendidos aos montes por plugins.

"Eu imaginei que conseguiríamos um período de teste de três dias, algo assim", contou-me Eckert semana passada durante a Def Con, evento no qual a descoberta foi apresentada pela primeira vez em solos internacionais. "Nossa empresa de fachada não tinha um endereço de verdade, ela não era registrada. A gente só tinha um site e uma conta no LinkedIn. Ficamos surpresos quando percebemos que eles estavam dispostos a nos dar esses dados."

Após receber os dados inclusos no período de teste, Eckert se uniu a Andreas Dewes, cientista de dados no comando da empresa 7 Scientists, para ver se eles conseguiam descobrir a identidade de indivíduos com base nas informações disponíveis nesse banco de dados. À primeira vista, os dados de navegação a quais eles tinham acesso não parecim ser muito importantes; eles consistiam em um monte de URLs com timestamps.

Parte dos dados de navegação de um juiz holandês identificado através de dados supostamente anônimos. Crédito: Svea Eckert

A primeira tarefa de Eckert foi descobrir se seus dados de navegação faziam parte do conjunto de dados. Para fazer isso, ela conduziu uma busca associando as URLs disponíveis com a página de login de sua empresa, que gera uma ID exclusiva para cada funcionário. A Alemanha possui uma população de cerca de 82 milhões de pessoas, o que significa que a probabilidade de que os dados de Eckert estivessem entre os dados disponíveis pela empresa era pequena. Embora seu histórico de navegação não estivesse no banco de dados, ao consultar os dados da página de login de sua empresa, Eckert descobriu que os dados de uma série de colegas estavam à venda.

Essa informação dava a Eckert acesso total ao histórico de navegação de vários de seus colegas. Após sua descoberta, Eckert entrou em contato com um desses colegas — seu amigo pessoal — para informá-lo de que ela tinha acesso a seu histórico de navegação. Nesse momento, o objetivo de Eckert era descobrir qual plugin estava coletando e vendendo esses dados.

Para responder essa pergunta, Eckert instruiu seu amigo a deletar um plugin a cada hora, até que seus dados desaparecessem da transmissão em tempo real. No sétimo plugin, seus dados desapareceram. Isso revelou que o plugin que estava apreendendo e vendendo seu histórico de navegação era, ironicamente, o Web of Trust, um programa que oferece "ferramentas gratuitas de busca e navegação seguras".

A parte mais preocupante da técnica de Eckert e Dewes é que ela pode ser empregada em qualquer pessoa com uma conta pessoal em alguma rede social. Em seu relatório, Eckert e Dewes usaram perfis do Twitter e da versão alemã do LinkedIn, o Xing, para tentar revelar a identidade de figuras públicas incluídas no conjunto de dados.

Quando clicamos na página de estatística do Twitter, somos direcionados a uma URL que inclui nosso nome de usuário — recurso também disponível no Xing. Isso permitiu com que Eckert e Dewes vasculhassem o banco de dados atrás das URLs de políticos alemães.

Caso um desses políticos estivesse incluso no banco de dados, o próximo passo era visitar sua página no Twitter e salvar alguns dos links que ele havia postado recentemente. Ao associar esses links à URL produzida pelo Twitter, Eckert e Dewes puderam identificar o histórico de navegação de determinado indivíduo em meio ao banco de dados anônimos.

Como Dewes me disse durante nossa conversa na Def Con, identificar um indivíduo em meio aos dados de 3 milhões de pessoas requer uma quantidade surpreendentemente pequena de informações. Como o histórico de navegação de cada pessoa é único, são necessárias apenas 10 visitas para criar uma "impressão digital" de um indivíduo.

Além disso, Dewes acrescenta que, como identificar um indivíduo é relativamente simples, tentar burlar essa técnica de análise visitando uma série de sites aleatórios é inútil, visto que são necessários poucos sites para identificar uma pessoa.

Durante a investigação, Eckert e Dewes encontraram alguns políticos no banco de dados. Os hábitos de navegação desses funcionários públicos, tais como o interesse de um juiz holandês por pornografia pesada, foram disponibilizados em sua totalidade para os pesquisadores.

Ao aceitar ter acesso a seu histórico de navegação, Valerie Wilms, membro do parlamento alemão, ficou chocada com o que os pesquisadores haviam descoberto. "Isso é perigoso", disse Wilms à reportagem original da NDR. "Isso deixa as pessoas vulneráveis à chantagem."

Segundo Eckert, a parte mais preocupante da coleta de dados de navegação é que ela é legal e relativamente barata. Após entrar em contato com 100 corretores de dados, Eckert afirma que os orçamentos que ela recebeu durante o mês de pesquisa variavam entre 10.000 e 500.000 euros — uma mixaria dentro dos círculos políticos. Quando Eckert e Dewes entraram em contato com o plugin responsável pela venda desses dados, a empresa afirmou que suas vendas estavam em conformidade com seus termos e serviços, e que ela "se esforçava" para manter o anonimato de seus clientes.

Como destacado por Eckert, é importante ler os termos de serviço e compreender a política de utilização de dados de cada empresa. Mesmo empresas como a Web of Trust, cujo modelo de negócio baseia-se no uso seguro da internet, podem expor, mesmo que inadvertidamente, os dados de navegação de seus usuários.

Isso também ressalta a importância da neutralidade da rede nos Estados Unidos. Em março, o Congresso americano aprovou a eliminação de uma série de regras de privacidade que exigiriam que provedores de internet obtivessem a permissão de seus usuários antes de vender seus dados de navegação. Como comprovado pela investigação conduzida por Eckert e Dewes, além desses dados serem fáceis de obter, eles podem ser usados para acessar o histórico de navegação de indivíduos específicos.

"Sinto que os corretores de dados não sabem o que eles estão vendendo", disse Eckert. "Quando liguei para saber mais sobre a compra de dados, eles agiam como se estivessem vendendo pedras ou maçãs. Essas empresas enlouqueceram."