Como a Inteligência Artificial pode ser usada para combater Fake News

Você entra em uma rede social e é imundado de informações postadas pelos seus amigos e parentes. Abre os grupos de WhatsApp e lá estão outras dezenas de notícias compartilhadas pela sua avó, primos, tios e tias. Você confere essas notícias antes de compartilhá-las? Verifica se elas são reais ou fazem parte das famosas Fake News? Saiba no que a Inteligência Artificial pode ajudar!

person reading the daily fake news newspaper sitting on gray couch
Foto por rawpixel.com em Pexels.com

Você já deve saber o que são Fake News, mas apenas para deixar claro, é assim que a Wikipedia define o termo:

Notícias falsas (sendo também muito comum o uso do termo em inglês fake news) são uma forma de imprensa marrom que consiste na distribuição deliberada de desinformação ou boatos via jornal impresso, televisão, rádio, ou ainda online, como nas mídias sociais. Este tipo de notícia é escrito e publicado com a intenção de enganar, a fim de se obter ganhos financeiros ou políticos, muitas vezes com manchetes sensacionalistas, exageradas ou evidentemente falsas para chamar a atenção.

Bem, as Fake News se tornaram um problema global e para tentar impedir a sua propagação diversos governos ao redor do mundo estão estudando ou já implantando leis para combatê-las. Deixando de lado a calorosa discussão sobre se esse combate fere ou não a liberdade de expressão e de imprensa, a maioria das leis propostas pune as plataformas de mídia sociais, ou seja, se um usuário do Facebook publica uma notícia falsa, é responsabilidade do Facebook detectar que a notícia é fake e remover o conteúdo, caso falhem nesta tarefa, as empresas podem ser punidas e multadas.

Mas, somente no Facebook, bilhões de conteúdos são compartilhados diariamente, sendo impossível analisar manualmente todos eles. Como as redes sociais podem analisar todas as postagens dos usuários e detectar automaticamente se elas são falsas ou não? Não existe outra resposta além desta: usando inteligência artificial!

Existem várias técnicas que podem ser utilizadas para identificar possíveis fake news, entre elas:

  1. Fact-checking individual claims. Utilização de moderadores humanos para checar as notícias e classificá-las.
  2. Hunting down trolls. Busca identificar perfis conhecidos como “trolls” nas redes sociais, na maioria das vezes são esses perfis que criam e espalham fake news. Muitas vezes esses perfis são bots (programas de computador).
  3. Score Web Pages.  Técnica utilizada pela Google para criar um ranking de páginas web baseado na exatidão dos fatos contidos na página, criando assim um score para cada uma delas;
  4. Weigh facts. Utiliza processamento de linguagem natural (PLN) para realizar uma análise semântica baseada no título, corpo do texto, o assunto do texto, localização geográfica, entre outros. Em seguida pondera os fatos apresentados na notícia com outras fontes que relatem a mesma história. Esta técnica utiliza modelos de IA para descobrir outras fontes que relatem a mesma história para posterior comparação;
  5. Discover Sensational Words. No geral fake news possuem não apenas manchetes (títulos) sensacionalistas, mas também palavras e termos chamativos para atrair a atenção e interesse do leitor. Esta técnica utiliza inteligência artificial para descobrir e sinalizar manchetes de notícias falsas usando a análise de palavras-chave.
  6. Measuring the reliability of news sources. Usa análise preditiva e aprendizagem de máquina para prever a reputação de um site de notícias. A ideia é focar na raiz do problema: a origem das notícias.

A técnica 3 (score web pages), usada pela Google, foi publicada em um artigo em 2015. Esse método visa pontuar as páginas da Web com base na precisão dos fatos apresentados, para isso, o algoritmo atribui aos documentos uma pontuação de confiança. O objetivo do algoritmo é tentar entender o contexto de uma página sem o uso de sinais de terceiros (como links, por exemplo).

Um exemplo da utilização da técnica 5 (discover sensational words) é aplicado pela startup indiana Metafact. Eles criaram uma ferramenta que analisa uma notícia e indica se a mesma pode ou não ser fake. Para isso, a empresa utiliza uma rede de voluntários que classifica conteúdos como suspeitos, em seguida são extraídas caracteristicas destes conteúdos para a criação do conjunto de treinamento. Tal conjunto será utilizado pelo algoritmo de aprendizagem supervisionada para classificar novos conteúdos como suspeitos. A empresa está utilizando o Watson da IBM para o desenvolvimento de sua tecnologia.

Em 2017, um estudante de Stanford de apenas 19 anos chamado Karan Singhal desenvolveu o site Fake News Detector IA. Ele utiliza 55 variáveis (como texto e layout do site) em uma rede neural para determinar se um site é confiável ou não, sendo assim uma aplicação da técnica 6 (measuring the reliability of news sources).

No final de 2018, um grupo composto por pesquisadores do MIT, Qatar Computing Research Institute (QCRI) e da Sofia University na Bulgaria divulgaram um estudo no qual utilizaram a técnica 6 (measuring the reliability of news sources) para prever a confiabilidade de um veículo de mídia. Foram utilizadas mais de 900 variáveis no modelo, entre elas: a estrutura da frase da manchete, diversidade de palavras no texto da notícia, URL, tráfego do site, página da Wikipédia do veículo, engajamento de mídia social, etc. Eles criaram um modelo usando aprendizagem de máquina com diferentes combinações das variáveis para encontrar as que produziriam os resultados mais precisos. O melhor modelo encontrado classificava as fontes com confiabilidade “baixa”, “média” ou “alto” com uma precisão de 65%.

Agora você me pergunta: apenas 65% de acurácia? Pois é… mesmo os melhores modelos disponíveis atualmente ainda não são capazes de identificar fake news com um nível confiável de precisão.

Quais os desafios para o uso de IA na detecção de Fake News?

  • A necessidade de dados

    • A escassez de dados de treinamento é o principal problema a ser enfrentado, dado que, a maneira mais óbvia de aumentar a precisão dos modelos de classificação é obtendo mais dados de treinamento. A pesquisa citada anteriormente em parceria do MIT e QCRI utilizou um conjunto de treinamento com apenas 2.500 fontes de mídia, o que explica a baixa precisão (65%). Dada a quantidade de variáveis usadas no modelo (mais de 900), um conjunto de treinamento de apenas 2500 é considerado uma escassez de termos de aprendizado de máquina;
    • O problema da escassez de dados de treinamento ocorre porque os mesmos devem estar anotados. Por exemplo, se você irá criar um sistema para detectar de forma automática notícias sobre esportes, deverá marcar dentre um conjunto de notícias quais são ou não relacionadas a esportes. Anotar notícias sobre esportes é fácil, porém rotular o nível de confiabilidade de um veículo de mídia é algo bem mais complexo e sensível. Por tanto, deve ser feito por jornalistas profissionais seguindo metodologias rigorosas. Logo, obviamente, este é um processo demorado. Isto justifica a falta de bases de dados grandes o suficiente para melhorarem a acurácia dos modelos de classificação.
    • O uso de voluntários para a realização da tarefa de anotação dos dados pode ser utilizado. Isto foi feito pela startup indiana que citamos, Metafact, porém além de diminuir a confiabilidade da base, ainda gera um outro problema: como incentivar os voluntários a realizar essa tarefa? Algum tipo de contrapartida precisa ser dada para que as pessoas se disponibilizem a fazer essa tarefa (que além de demorada é monotona).
  • A barreira do idioma

    • Processamento de linguagem natural (PLN) é a base para analisar e extrair variáveis das noticias (como palavras-chaves e assunto) para posteriormente classificá-las. Embora exista uma variedade de bibliotecas e ferramentas de PLN para a língua inglesa, o mesmo não pode ser dito para outros idiomas, como o português. Esse problema é enfrentado pela startup indiana Metafact para trabalhar com os diferentes dialetos e idiomas falados na Índia;
    • Para a utilização de algoritmos de aprendizagem supervisionada são necessários conjuntos de treinamento. Se, como citamos acima, para a lingua inglesa existem conjutos de treinamento disponíveis, porém pequenos (ou seja, com poucas instâncias), para outros idiomas a dificuldade é ainda maior.
  • O perigo dos falsos positivos

    • Ao classificar notícias como falsas ou não, ou até mesmo classificar seu nível de confiabilidade, dificilmente será possível alcançar 100% de precisão. Neste contexto, falsos positivos são problemáticos, os motivos são obvios… imagine uma notícia verdadeira sobre um caso de corrupção ser classificada pelo algoritmo como falsa. Deixo a seu cargo imaginar a confusão que seria e as teorias da conspiração que surgiriam…
  • Limitações das técnicas atuais

    • Citamos no inicio do post 6 técnicas que podem ser utilizadas para combater fake news, porém cada uma delas possui suas limitações;
    • Fact-checking individual claims. A utilização de moderadores humanos na checagem das notícias tem claramente um problema de escala. A quantidade de notícias compartilhadas é muito maior do que nossa capacidade de designar um grupo humano confiável para analisá-las. Lembrando que o ideal é utilizar um grupo de jornalistas profissionais para rotulá-las.
    • Hunting down trolls. A identificação de perfis de “trolls” tem avançado, porém esbarra no problema que, mesmo que o perfil seja excluído da rede, a pessoa sempre pode criar um novo perfil e continuar seu trabalho de disseminar notícias falsas;
    • Score Web Pages. Usar um score para páginas web de veículos de mídia pode prejudicar sites menores ou blogs jornalísticos independentes. Um furo de reportagem (jargão para a informação publicada em um veículo antes de todos os demais) dado por um site ou blog menor pode ser rejeitado como notícia falsa ou de baixa confiabilidade, mesmo se for verdadeira. Isso pode ocorrer porque os sites mais antigos e estabecelidos não irão notar a notícia até que ela se espalhe.
    • Weigh facts. Ponderar as notícias baseando-se em várias fontes que relatem a história a princípio parece uma boa técnica. Mas o que acontece se uma notícia falsa aparecer em vários sites de notícias ao mesmo tempo? Nesta situação, a técnica iria classificar erroneamente a notícia como legítima. Pode parecer improvável que um veículo famoso da mídia, dito como confiável, não reserve tempo para verificar uma notícia, mas existem casos famosos em que isso aconteceu.
    • Discover Sensational Words. O uso de palavras chaves pode acarretar em um problema: apenas com o uso de palavras não é possível distinguir um site de humor/sátira de sites com objetivos de disseminar notícias falsas. Tomando como exemplo o site Sensacionalista, ele tem por objetivo fazer humor com notícias propositadamente absurdas que são sátiras de fatos reais. Analisando apenas as palavras chamativas do site, o mesmo poderia erronemente ser classificado como uma fonte de fake news. Perceba que o problema de diferenciar sites de humor de fontes de fake news é algo que atrapalha também outras técnicas.
    • Measuring the reliability of news sources. Rotular que um determinado veículo é uma fonte de fake news é algo polêmico. Sempre haverá alguém que irá questionar a presença de um determinado site na base de dados rotulado como não confiável.

Embora existam ainda tantos desafios a serem enfrentados, na opinião de Preslav Nakov (um dos cientistas responsavel pelo estudo do MIT e QCRI), a tecnologia pode ajudar a resolver o problema das fake news com mais rapidez, “Nós nunca vamos parar as notícias falsas completamente, mas podemos colocá-las sob controle“. Para Dean Pomerleau (criador do desafio #FakeNewsChallenge), que vem utilizando redes neurais com sucesso desde a década de 1980 (quando elas ainda não eram moda), nós ainda estamos longe de uma IA que possua uma precisão confiável na detecção de notícias falsas (como já existem para identificar gatos em vídeos no YouTube ou para criação de carros autônomos). Para Pomerleau, uma máquina que pode identificar com segurança notícias falsas é uma máquina que resolveu completamente a IA. “Isso significaria que a AI alcançou inteligência em nível humano”, disse ele em entrevista ao site Wired em 2016.

Parece ser um consenso entre os especialistas que para combater as fake news humanos e a máquina terão que trabalhar juntos. A IA pode reduzir o esforço humano e filtrar as notícias suspeitas, para que um humano possa fazer o julgamento final se ela é falsa ou não.

No fim das contas, mesmo que as ferramentas para detecção de fake news se tornem mais sofisticadas e confiáveis, o problema nunca será resolvido se os próprios usuários não estiverem dispostos a fazer um esforço extra, analisar com senso crítico e não compartilhar no impulso tudo o que recebem nas redes sociais.

Conhece mais alguma técnica para detectar fake news? Leu algum estudo recente sobre o assunto? Dúvias? Deixe seu comentário!

Até mais, e obrigado pelos peixes!

Publicado por

priscyllamss

Priscylla Silva is a teacher at the Federal Institute of Alagoas (IFAL), Brazil. She obtained her BSc degree in computer science from the Federal University of Alagoas (UFAL), Brazil. Later, she received her Master degree in Computer Science from the Federal University of Campina Grande (UFCG), Brazil. Her research interests include User Modelling, Recommender Systems, Machine Learning, Intelligent Tutoring Systems, Robotics, Internet of Things, and Internet Governance.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s

%d blogueiros gostam disto: