13/09/2020

Ferramentas de raspagem de dados facilitam investigação no trabalho jornalístico

Trabalhar com jornalismo de dados requer atenção e uso de métodos especializados, mas ferramentas descomplicadas otimizam o processo

Por: Maria Carolina Sousa e Isabella Vieira

Edição: Pâmela Chagas


Ainda que existam diferentes possibilidades de uso dos dados no jornalismo, pode ser difícil acessá-los de forma clara e organizada. Por isso, são necessários métodos específicos para rastrear, capturar e reunir de forma estruturada a grande quantidade de conteúdo disponível. Mas para otimizar o trabalho do jornalista, existem algumas ferramentas, como contou o data scientist João Carabetta na Oficina de Raspagem de Dados do 2.º Domingo de Dados do Congresso da Abraji. Ele também destacou a importância dessas aplicações em tarefas investigativas, como a fiscalização de bases do poder público.

Carabetta ensina como utilizar a extensão Web Scraper para realizar a raspagem de dados, de forma a organizar informações de maneira automatizada, facilitando o trabalho do jornalista na sistematização das informações. Como demonstração, ele fez a extração de dados do Diário Oficial da União (DUO), em um exercício para selecionar e separar por ordem de importância os atos (publicações) de maior valia. Como resultado final, o conteúdo raspado fica organizado em uma tabela, para ser utilizado em possíveis situações de análises e comparações, facilitando na etapa de apuração, por exemplo.

O técnica de raspagem de dados é apresentada em conjunto com o uso de APIs - "Application Program Interface", em português "Interface de Programação de Aplicativos" como ferramentas cruciais para a raspagem de dados.

API é uma interface que atua na integração das diferentes linguagens de programação entre a plataforma do site e a base de dados, possibilitando a entrada no sistema para obter informações filtradas. Carabetta demonstra como usar esse mecanismo para buscar informações sobre deputados no site da Câmara dos Deputados, bem como monitorar suas despesas e propostas legislativas.

Em casos de APIs escondidas, que é quando as informações vêm misturadas ao código html do site, o cientista de dados recomenda a ferramenta Web Inspector. Ela converte os dados misturados e separa o conteúdo que o jornalista precisa.

Grandes redes sociais, como Twitter, Facebook e Instagram, permitem o acesso estruturado de seus dados via APIs, segundo conta o palestrante. No caso da plataforma criada por Mark Zuckerberg, é possível fazer agendamentos de publicações, o que oferece uma automatização útil para quem trabalha com mídias sociais e produção de conteúdo, otimizando o tempo de trabalho.

Outro aliado do jornalismo de dados é a plataforma Brasil.io. Além de raspar dados importantes, também disponibiliza uma API para acesso a conteúdos. Um dos projetos recentes do repositório, é a força-tarefa de 40 voluntários que compilam notícias de caráter técnico-científico a respeito da COVID-19 e seu impacto nos municípios brasileiros, com a ajuda da coleta de informações em bases de 27 Secretarias Estaduais de Saúde.

Mas existem muitas plataformas que podem ser utilizadas. A Escola de Dados produziu uma postagem especial sobre diversas ferramentas e dicas proficientes na raspagem de dados e nas ações após o uso da técnica.


Direção de arte: Isabella Vieira e Mikael Schumacher
Criação de arte: Mikael Schumacher

A cobertura oficial do 15º Congresso Internacional de Jornalismo Investigativo é realizada por estudantes, recém-formados e jornalistas integrantes da Redação Laboratorial do Repórter do Futuro, da OBORÉ, sob coordenação do Conselho de Orientação Profissional e do núcleo coordenador do Projeto. Conta com o apoio institucional da Abraji, do Instituto de Pesquisa, Formação e Difusão em Políticas Públicas e Sociais (IPFD) e da Organização das Nações Unidas para a Educação, Ciência e Cultura (Unesco) em cooperação com a Oficina de Montevideo/Oficina Regional de Ciências para a América Latina e Caribe.

Nenhum comentário:

Postar um comentário