O Que É Privacidade Diferencial?

Dados querem ser anônimos. Deixemos que sejam.

Por Michael Byrne

8.1.15

Crédito: r2hox/Flickr

Um dos muitos paradoxos de nosso futuro tecnológico envolve o campo cada vez maior do aprendizado das máquinas e o campo cada vez menor da privacidade pessoal. Este aprendizado parte da existência de séries de treinamento e vastas compilações de dados que podem ser usados para a construção de novos e melhores algoritmos. Claramente, a busca de dados cada vez mais particulares tem como preço o custo da identificação de cada um de nós. Você é seus dados, certo?

A pergunta então é como coletar e utilizar este sem-fim de informações mantendo o anonimato dos donos destes dados. É uma contradição, mas talvez nem tanto. Poderia existir então uma terceira via? Eis aí a privacidade diferencial, um conceito/princípio há muito teorizado, mas parcamente aplicado, que pode ser definido de forma muito simples segundo Anthony Tockar, da Northwestern University:

O risco para com a privacidade de um indivíduo não deveria aumentar substancialmente como resultado de sua participação em um banco de dados estatístico. Logo, um invasor não deveria poder obter nenhuma informação sobre quaisquer integrantes que não pudesse obter caso estes integrantes tivessem se retirado do banco de dados. Pode-se argumentar com alguma confiança que há um baixo risco de a privacidade de qualquer pessoa ser comprometida como resultado de sua participação no banco de dados.

A privacidade diferencial é mais que um princípio que soa bonito no papel. É um método ou uma série de métodos. É algo que pode ser provado e explicado matematicamente.

Primeiro temos de esclarecer o que é privacidade neste contexto. Presuma que em nossos bancos de dados as identidades e informações correspondentes estão embaralhadas. Talvez conheçamos alguns dos indivíduos ali, mas os dados correspondentes não estão muito claros. Isto não significa que os dados estejam anonimizados de fato, porém. Tockar cita o seguinte exemplo:

Suponhamos que você tenha acesso a um banco de dados que lhe permita computar a renda total de todos os residentes de determinada região. Se você soubesse que o Seu Silva se mudaria para outro local, ao consultar este banco de dados antes e depois de sua mudança, você teria como deduzir o quanto ele ganha.

Em outras palavras, é possível inferir informações supostamente ocultas a respeito do Seu Silva. Esse é um problema generalizado com dados anônimos: revelar sem querer informações privadas. Talvez não tenhamos nomes com um conjunto de dados anônimos, mas temos meios. E a partir destes meios, um buscador de dados relativamente esperto poderia obter alguns nomes.

Como explicado por Tockar, a solução é o ruído. É possível aplicar uma espécie de mecanismo gerador de ruídos a conjuntos de dados relacionados. Assim, consultas capazes de revelar a identidade de um participante nestes dados vão gerar um resultado com perturbações suficientes para esconder este indivíduo (ufa!).

Se adicionássemos ruído o suficiente ao nosso exemplo acima, nos pontos certos, talvez víssemos um monte de pessoas imaginárias fazendo a mesma mudança. Isso iria mascarar o Seu Silva verdadeiro. A ideia é que o sistema encontre situações como essas, em que a especificidade de algum aspecto do banco de dados talvez revele uma identidade, para então cobri-lo com ruídos. Isso oculta o indivíduo enquanto mantém o resto do seus dados intactos.

Isto pode ser feito através de distribuições estatísticas. Em vez de distribuir informação na forma de picos discretos de dados, que podem ser rastreáveis em direção aos indivíduos, o banco de dados distribui informações em termos de suaves curvas probabilísticas. Este ruído seria aplicado proporcionalmente ao indivíduo mais diferente em determinado conjunto de dados. Esta pessoa seria o caso isolado em todas as situações, uma anomalia. Se a renda média em uma vizinhança é de R$ 60 mil, esta pessoa ganharia R$ 120 mil. Se uma vizinhança é 98% branca, esta pessoa seria negra. Nota-se como ser uma anomalia torna-se uma contradição em termos de privacidade. Nos dados desta pessoa excepcional é onde encontramos mais ruído.

"No nosso exemplo do Seu Silva, suponhamos que a renda total em sua vizinhança original seja de R$ 50 milhões", escreveu Tockar. "Após sua saída, este valor cai para R$ 49 milhões. Logo, pode-se deduzir que sua renda real é de $1 milhão. Para manter seus ganhos privados, temos que nos certificar de que o resultado da consulta é ruidoso o bastante para 'esconder' esta informação. De fato, para garantir a privacidade da renda de todos em nosso banco de dados, temos que nos certificar de que a pessoa mais rica também esteja protegida. Acaba que o Seu Silva era a pessoa mais rica em sua vizinhança, então a sensibilidade é de R$ 1 milhão."

JÁ IDENTIFICAMOS DE FORMA BEM-SUCEDIDA OS REGISTROS DO NETFLIX DE USUÁRIOS CONHECIDOS, DESCOBRINDO SUAS PREFERÊNCIAS POLÍTICAS APARENTES E OUTRAS INFORMAÇÕES POSSIVELMENTE SENSÍVEIS.

O sistema não é perfeito. Existem situações em que queremos dados com definições superdetalhadas e muitas vezes a coisa simplesmente não funciona. Há mais em jogo, contudo, do que muita gente pensa; em 2006, uma pesquisa de Stanford descobriu que 63% dos norte-americanos possivelmente poderiam ser identificados apenas com dados como seu CEP, gênero e data de nascimento (Vale destacar, porém, que em 1990 a porcentagem era 81%). Em um incidente clássico, os registros médicos do ex-governador de Massachusetts, William Weld, foram retirados de um banco de dados supostamente anônimo ao compararem-se sobreposições naquele banco de dados com outro de registro de eleitores. O anonimato é algo extremamente precário.

Algo parecido com o incidente de Massachusetts foi alcançado pelos pesquisadores da Universidade do Texas em Austin por meio do banco de dados de treinamento anônimo do Netflix. Ao correlacionar esses dados com avaliações de usuários e afins com dados não-anônimos do IMDB, obteve-se uma série de detalhes pessoais. "Usando o site InterneMovie Database como fonte de conhecimentos prévios", relatou a equipe, "identificamos de forma bem-sucedida registros do Netflix de usuários conhecidos, descobrindo suas preferências políticas aparentes e outras informações possivelmente sensíveis".

A noção geral de ruído aplica-se ao contexto de aprendizado de máquinas também, de acordo com um estudo recente postado no arXiv. Um algoritmo não receberia então um fluxo de dados puro, mas um "sujo" com ruído estatístico. O algoritmo ainda poderá aprender com aquilo e desempenhar sua função, mas sem ter conhecimento de dados de maior sensibilidade. Isto pode até mesmo ajudar a solucionar o problema do aprendizado de máquinas conhecido como overfitting, em que um algoritmo torna-se sensível demais diante de determinado conjunto de dados e perde sua habilidade de lidar e processar novos pontos de dados ou pontos de dados fora de suas estruturas agora rígidas.

"A privacidade diferencial prospera pois é natural, não é específica de um domínio, e desfruta de uma relação frutífera com outros campos", afirmou uma pesquisa da Microsoft Research de 2011. "Esta flexibilidade dá esperanças para uma abordagem com princípios a privacidade, em casos como a análise de dados privados, em que as noções de segurança criptográfica são inapropriadas ou impraticáveis".

De certa forma, os dados querem ser anonimizados. O propósito de conjuntos de dados é examinar grupos, não indivíduos, mas este efeito colateral persiste. E enquanto persistir, o futuro movido a dados só se torna mais precário.

Tradução: Thiago "Índio" Silva

Tagged:motherboard showPoderPrivacidadedadosEstatísticaTechMotherboard