13/09/2020

Twitter é a melhor rede social para extração de dados

A jornalista da Agência Tatu, Géssika Costa, e o cientista de dados, Janderson Toth, destacam a facilidade de trabalhar com a rede social em relação às demais

Por : Carina Gonçalves e Gabriela Vasques

Edição: Luísa Cortés


A melhor rede social para extrair dados é o Twitter, segundo o cientista de dados Janderson Toth. A plataforma permite um acesso mais fácil às informações sobre as publicações, o que não acontece em redes como Facebook e Instagram. 

Na oficina “Como extrair e analisar dados das redes sociais”, realizada no 2º Domingo de Dados, da Associação Brasileira de Jornalismo Investigativo (Abraji), ministrada por Toth e pela jornalista Géssika Costa, o cientista de dados contou que essa facilidade é muito benéfica ao jornalismo, já que o Twitter funciona como um “eletrocardiograma” da sociedade: os principais acontecimentos costumam ser bastante comentados na rede social.

Como extrair informações da plataforma?

Toth explicou ao público o passo a passo de duas formas para captar dados do Twitter: por Streaming ou Histórico. 

No Streaming, os dados sobre determinado tema são buscados nas postagens feitas em tempo real. No entanto, tem-se acesso a somente 1º do que é publicado “ao vivo”. Pode parecer pouco, mas Toth afirma que se trata de uma quantidade considerável para trabalhar em reportagens. Por isso, esse tipo de busca é ideal para a cobertura em hard news, como um jogo de futebol.

Na extração por Histórico, é possível acessar dados de até sete dias atrás. Mas há limitações, como a perda de informações. É o caso das “guerras de robôs”:  “Sabe-se que eles [os robôs] excluem as publicações em pouco tempo”, lembra o cientista de dados. Nesse caso, os posts apagados não podem ser recuperados.

Outro problema da extração de dados por Histórico é o tempo que o download das publicações pode levar. Nesse tipo de busca, os tweets são fornecidos em pacotes de 18 mil posts, e cada pacote desse leva cerca de 15 minutos para ser baixado. Em um evento de grande porte, como um dia de eleição ou o Super Bowl, o tempo necessário para ter acesso a esses dados é longo e, segundo ele, não vale a pena.

Por isso, Toth afirma que a melhor forma de se extrair os dados do Twitter é com o Streaming. Como exemplo, ele cita a cobertura do Oscar e a sua repercussão nas redes sociais. Nesse caso, o Streaming já deixa a programação captando o conteúdo. A dica do cientista é usar o Histórico caso aconteça algo inesperado. 

Como organizar as informações extraídas?

Géssika Costa, da Agência Tatu, startup de jornalismo de dados localizada em Alagoas, também estava presente na oficina. Ali, ela explicou como é possível analisar e trabalhar com os dados retirados das redes sociais. 

Costa afirma que um dos passos importantes para trabalhar com dados é saber as informações que quer extrair: fazer um recorte de tempo, local e de quem fez determinadas interações nas redes sociais é um caminho. 

A jornalista demonstrou de forma prática como analisar tweets a partir de um exemplo, com uma seleção de pré-candidatos à Prefeitura do Recife, em Pernambuco. Após extrair todas as mensagens, usando as ferramentas indicadas por Janderson Toth, o indicado é colocar os dados no Google Sheets.

Na plataforma, é possível usar a ferramenta de Filtro (basta apertar em formatar na barra superior) e, então, selecionar o período que deseja analisar. Costa, no exemplo, selecionou os tweets dos pré-candidatos durante o período da pandemia do novo coronavírus, iniciado em março de 2020 no Brasil. Ela também selecionou um pré-candidato a cada filtro e criou uma aba diferente para cada um deles, dentro do próprio Google Sheets.

Depois disso, Costa importou os dados para a plataforma WordClouds.com, que ferramenta transforma os termos mais utilizados no perfil em uma nuvem de palavras, em que aquelas com mais recorrência ficam em um tamanho maior. Assim, é possível visualizar de forma rápida e fácil os temas abordados por cada pré-candidato na rede social. O conteúdo fica acessível inclusive para pessoas leigas em programação ou que pouco dominam de interpretação de dados, e pode ser usado no corpo da matéria.

Por fim, deve-se excluir palavras sem significado, como pronomes e conjunções. Na plataforma, é possível visualizar em forma de lista os termos mais usados, o que ajudará na hora de procurar o contexto dos usos de palavras de determinada pessoa.


Direção de arte: Isabella Vieira e Mikael Schumacher
Criação de arte: Isabella Vieira

A cobertura oficial do 15º Congresso Internacional de Jornalismo Investigativo é realizada por estudantes, recém-formados e jornalistas integrantes da Redação Laboratorial do Repórter do Futuro, da OBORÉ, sob coordenação do Conselho de Orientação Profissional e do núcleo coordenador do Projeto. Conta com o apoio institucional da Abraji, do Instituto de Pesquisa, Formação e Difusão em Políticas Públicas e Sociais (IPFD) e da Organização das Nações Unidas para a Educação, Ciência e Cultura (Unesco) em cooperação com a Oficina de Montevideo/Oficina Regional de Ciências para a América Latina e Caribe. 

Nenhum comentário:

Postar um comentário