​Este Algoritmo Analisa os Sentimentos por Trás dos Textões da Internet

Testamos o programa da USP que analisa e classifica textos postados online.

|
31 agosto 2015, 8:49pm

Crédito: Patrick Finnegan

Uber ou táxi, ciclovia ou carro, vestido azul ou dourado. Nos últimos tempos, as principais tretas deixaram de ser discutidas ao redor das mesas de bar e migraram para as redes sociais. É no ambiente virtual que está o mapa da mina para sociólogos, publicitários e jornalistas estudarem as tendências em ebulição no país: desde quem sairá vencedor das eleições até quais as chances de sucesso de um novo produto lançado no mercado.

Mas, na era dos textões, haja trabalho — e saco — para ler cada opinião divulgada nas nossas timelines. Para fazer esse trampo chato, pesquisadores de todo o planeta têm se focado no desenvolvimento dos websensors, algoritmos capazes de acompanhar o desenrolar de qualquer assunto que estiver sendo debatido online, em tempo real, e classificar as respostas dos usuários. "É impossível acompanharmos tudo que é postado. Esse tipo de programa nos dá condições de monitorar isso", diz Solange Oliveira Rezende, professora do Instituto de Ciências Matemáticas e de Computação da USP, que desenvolve desse tipo de tecnologia.

O foco das pesquisas de sua equipe é criar websensors ainda mais rápidos que os que estão no mercado. "Precisamos de algoritmos mais potentes para acompanhar o imenso — e cada vez maior — volume de dados gerado em redes sociais como Twitter e Facebook", diz Solange. O Motherboard teve acesso a um desses algoritmos e o usou para analisar a opinião do pessoal acerca de umas polêmicas que cobrimos recentemente.

O que faz o algoritmo desenvolvido por Rossi ter melhor desempenho do que os outros é levar em conta não só a frequência com que as palavras aparecem nos textos, mas também as relações que elas têm entre si

O programa testado foi desenvolvido por Rafael Rossi durante sua pesquisa de doutorado orientada por Solange. Trata-se de um algoritmo de aprendizado de máquina, que pode ser treinado para analisar qualquer texto apresentado pelo pesquisador e classificá-lo segundo seu conteúdo. "Esse tipo de algoritmo tem uma infinidade de usos, já que pode aprender a executar qualquer tipo de classificação", diz Rossi.

Basta ao pesquisador fornecer alguns exemplos de textos que já estejam rotulados em diferentes categorias, como, por exemplo, notícias de esporte, entretenimento e política. Num processo semelhante ao aprendizado humano, a máquina analisa os textos, vê quais as principais características de cada uma das diferentes categorias e aprende a classificar qualquer outro texto que seja apresentado.

Para testar o algoritmo, realizamos o que os pesquisadores chamam de uma análise de sentimentos, um método que examina o conteúdo dos textos em busca da posição defendida pelo autor. Ele foi usado pelo pesquisador durante as eleições passadas para ver se os usuários de redes sociais estavam postando de maneira favorável ou contrária a Aécio e Dilma.

No primeiro teste, analisamos os comentários postados nas notícias do Motherboard (na gringa, sobretudo) sobre os hackers que invadiram e divulgaram dados de usuários do site de traição Ashley Madison. Primeiro treinamos a máquina com oito comentários que defendiam a ação dos hackers ao dizer se tratar de uma forma de justiça contra maridos infiéis e outros oito comentários que consideravam a ação um crime e uma ameaça à privacidade dos usuários (é importante lembrar que a coleta de dados não foi feita pelo pesquisador, mas por mim, o jornalista. Logo, foi feita sem rigor matemático ou critério científico).

Depois de a máquina aprender as características das mensagens de cada um dos lados, ela analisou outros 71 comentários. Em uma tabela, o algoritmo mostrou para que lado pendia cada um, apontando o grau de confiança que tinha nessa classificação. Por exemplo, o comentário "Hackers como esses podem ser nossos salvadores" foi classificado como defendendo a ação, com 95% de certeza. Como resultado geral, 56% dos comentaristas consideravam os hackers criminosos.

O segundo teste analisou a posição dos usuários do Twitter em relação à recente briga entre taxistas e Uber. Primeiro, treinamos a máquina com nove mensagens favoráveis a cada um dos lados da disputa. Em seguida, fizemos ela analisar outros 55 tuítes postados nas últimas semanas. Como resultado, 78% dos comentários defendiam o Uber — ou atacavam os taxistas, o que era mais comum.

Além das análises de sentimentos, esse tipo de algoritmo já é bastante utilizado ao redor do mundo em uma série de outras aplicações. Eles são usados para catalogar bibliotecas virtuais, organizar e-mails e documentos, criar filtros personalizados de busca, identificar autores de textos e até combater o cyberbullying. "Basta fornecer ao computador exemplos do que seriam comentários ofensivos e ele aprende a identificar esse tipo de comportamento", diz Rossi.

Os algoritmos são usados para catalogar bibliotecas virtuais, organizar e-mails e documentos, criar filtros personalizados de busca, identificar autores de textos e até combater o cyberbullying

O que faz o algoritmo desenvolvido por Rossi ter uma performance melhor do que os outros usados hoje em dia é o fato de ele levar em conta não só a frequência com que as palavras aparecem nos textos, mas também as relações que elas têm entre si. "O programa faz uma representação dos termos em rede. Por exemplo, se as palavras Futebol e Corinthians aparecem nos mesmos textos sobre Esporte, a máquina vai aprender que sempre que elas aparecerem juntas devem ter um peso maior para essa categoria", diz.

Isso é especialmente importante para termos que podem ter mais de um sentido. Ainda no exemplo citado pelo pesquisador, São Paulo, Santos e Palmeiras poderiam tanto servir para identificar textos de esporte quanto urbanismo, teologia e botânica. Uma análise em rede, que interprete sua relação com outras as palavras do texto, pode prevenir esse tipo de confusão.

Em seus estudos, Rossi comparou a performance de seu algoritmo com outros já utilizados ao redor do planeta. O fato de analisar com base nas redes de termos fez com que o pesquisador precisasse fornecer um número menor de exemplos já catalogados para o computador aprender a classificar. E, mesmo com o treinamento menor, o algoritmo se mostrou mais preciso na hora de classificar estudos científicos, páginas da internet, documentos médicos e outros tipos de textos. "Ou seja, ele acerta mais e exige um esforço menor do pesquisador na hora de rotular os exemplos", diz.

Hoje, com a quantidade cada vez maior de informação disponível na internet, esse tipo de performance se torna ainda mais necessária. Assim, mesmo que ninguém nunca curta, compartilhe ou comente quando você abre seu coração nas redes sociais, saiba que pelo menos uma máquina, alojada em algum laboratório pode estar te lendo — e até entendendo suas emoções.