Posts com Tag ‘Transparência’

Tudo que fazemos na web é rastreado, perfilado, e analisado. Mas o que as empresas fazem com essa informação? Até que ponto usam-na de maneira que nos beneficiem contra formas de discriminação?
Enquanto muitas preocupações têm sido levantadas, não se sabe muito quantitativamente. É por isso que em Princeton estão construindo uma infra-estrutura para detectar, medir e reverter tratamento diferenciado de usuários da web.

Vamos considerar alguns exemplos. A “bolha de filtro” surge quando os sistemas de algoritmos, como a pesquisa do Google ou o Facebook decide quais informações deve mostrar um para o usuário com base em seu padrão anterior de buscas e cliques. A preocupação é que os usuários serão alimentados com reforços nos pontos de vista e eventualmente, isolando-os em suas próprias bolhas. A nível demográfico, convém mapear os perfis e aparentemente soa justo tratar os usuários “semelhantes” da mesma forma. O que pode levar a um aprofundamento das disparidades existentes como em anúncios on-line, que vira e mexe parecem uma ferramenta para exibir preconceito racial, temos também os preços on-line e ofertas que foram programados para variar com base em atributos pessoais dos usuários.

O que todos estes e muitos outros exemplos tem em comum é que eles são formas de utilizar as informações pessoais para diferencial ou tratamento discriminatório. Em outras palavras, existe um sistema de ensino a nível de máquina que leva informações pessoais como entrada e produz uma decisão quanto a saída (como um resultado de pesquisa contra o outro ou a um preço mais elevado em comparação com um preço mais baixo).

Alguns pesquisadores utilizam técnicas manuais ou crowdsourcing para olhar para essas diferenças. O que é um grande começo, a abordagem de Princeton à engenharia reversa enfatiza automatização, escalabilidade, generalidade e velocidade. Para isso, estão construindo agentes autônomos, ou seja, bots, que imitam os usuários reais. Bots com diferentes “personas” (que variam de acordo com a idade, sexo, riqueza, localização, interesses e muitos outros atributos) para navegar na web, realizar pesquisas, e assim por diante ao longo de um período de tempo. Ao fazê-lo, eles comparam os resultados da pesquisa, os preços, anúncios, ofertas, e-mails e outros conteúdos que recebem. Por enquanto é a única infra-estrutura extensível com vários plugins que permite medir diferentes tipos de personalização ou discriminação em diferentes sites.

O que me empolga sobre esse projeto é que a plataforma de medição se espalha fortemente em diversas áreas da computação. Estão usando aprendizado de máquina para perfis de construção de usuários simulados com base em registros de usuários reais. Daí a magia de interpretar o que estão vendo nos bastidores… O que requer o desenvolvimento de técnicas de engenharia reversa automatizadas que vou tentar elaborar abaixo.

O objetivo a longo prazo é ser capaz de executar a ferramenta em uma escala web para publicar um “censo” frequentemente atualizado de privacidade on-line e de discriminação.
Implantar com sucesso uma plataforma como essa é um desafio significativo para sistemas de pesquisa. Com isto em mente, imagine um projeto altamente modular de modo que, diferentes pesquisadores possam trabalhar em diferentes partes da infra-estrutura independentemente.

Outro objetivo bem particular deste projeto é provar a possibilidade de informações criptografadas de usuários armazenadas em cookies e que são frequentemente transferidas entre usuário e site, possam ser “Decriptografadas”(Decifradas).
Por exemplo, podemos dizer que os valores correspondem a IDs de usuários, segmentos de interesse e outras informações de comportamento possuem um padrão de criptografia que podem ser entendidos e traduzidos de volta para sistemas humanamente compreensíveis.

Um exemplo básico da técnica é apresentado no gráfico abaixo que mostra um mapa de domínios que por sua vez sincronizam os cookies com a empresa de publicidade “AppNexus”

Sincronização de Cookie é um protocolo pelo qual dois trackers diferentes de terceiros são capazes de combinar suas respectivas identificações pseudônimas do usuário um para outro, ampliando o efeito de infringir a privacidade de rastreamento on-line.

Vários pontos podem ser observados na imagem:

  • Em primeiro lugar, esta análise é significativamente mais profunda do que ferramentas como lightbeam para o Firefox, o qual apenas observa as relações entre pares de servidores. Com o Lightbeam não consigo por exemplo, descobrir o significado dos dados que são trocados. Por outro lado, se automatizarmos a detecção de sincronização dos cookies, isso fica muito mais difícil e produz resultados muito mais úteis.
  • Em segundo lugar, estão trabalhando na capacidade de inserir atributos ainda mais sutis, como os segmentos de comportamento e parâmetros relacionados com leilões de anúncios.
  • Em terceiro lugar, estão fazendo esta medição em uma escala web ao invés de uma ferramenta pessoal para um único usuário. Lembrando que o objetivo é um censo privacidade web que será um mapa abrangente de quais entidades estão coletando as informações, o que eles estão inferindo a partir dele e o que eles estão compartilhando com ele. É um passo importante para o objetivo final de descobrir como os usuários são tratados com base nessa informação.

A esperança é a de trazer transparência para uma coleção atualmente invisível e ressaltantado que  colocar a utilização de dados pessoais on-line vai prover uma maior sensibilização do público e um debate mais informado sobre os méritos e perigos dessas práticas. No caso de usos particularmente inadequados de dados pessoais, a infra-estrutura de medição pode ajudar numa ação regulatória. Atualmente, rastreadores on-line operam a um nível inaceitável de obscuridade.
Vejo nessa iniciativa de transparência um componente chave da democracia digital, e eles convidam as pessoas a se juntarem à eles através do http://donottrack.us/.

Anúncios