EDA com dados do PORTAL BRASILEIRO DE DADOS ABERTOS

Carlos Tadei
4 min readJun 29, 2021

Exploratory Data Analysis (EDA) que significa Análise Exploratória de Dados e uma abordagem de exploração dos dados, afim de medir dispersão nos dados ou anomalias, entre outras.

O que são dados abertos?

Dados são abertos quando qualquer pessoa pode livremente acessá-los, utilizá-los, modificá-los e compartilhá-los para qualquer finalidade, estando sujeito a, no máximo, a exigências que visem preservar sua proveniência e sua abertura.

Baixando os dados da Campanha Nacional de Vacinação contra Covid-19

O Ministério da Saúde, por meio do Sistema de Informação do Programa Nacional de Imunizações (SI-PNI), disponibiliza nesta página dados referentes à Campanha Nacional de Vacinação contra Covid-19 para análise de instituições interessadas e do público.

https://dados.gov.br/dataset/covid-19-vacinacao

Podemos usar uma API ou fazer o download de um CSV.

Existem apenas 582k registros, aparentemente não há os dados de todos os vacinados.

Verificando as colunas

EDA SIMPLES

- Removendo valores duplicados e valores perdidos (Nulos)

- As linhas duplicadas vamos remover

- Valores nulos podemos fazer:
1 — Escolher um método para filtrar as Nans dependendo da situação.
2 — Usualmente uma maneira que funciona muito bem e substituir pela media, mediana ou -999.

  • Devemos tratar valores nulos antes da Features Generation.

Vamos analisar algumas colunas

Idade paciente

Usando o boxplot podemos ver os outliers nos dados.
https://oestatistico.com.br/boxplot-a-caixa-magica/#:~:text=Para%20que%20serve%3F,controlar%20valores%20extremos%20(outliers).
  • Erros de digitação
    1 — Existem alguns outliers nos dados, pois certamente não tem pessoas com mais de 110 anos de idade.
    2 — Há também registros de pacientes com menos de 18 anos, porém a vacinação ainda não começou nessa faixa etária.

Existem algumas opções para tratar esses dados.
— Substituir pela media
— Excluir o registro
— Analisar o registro separadamente
— Aplicar um método de clusterização

Nesse caso vamos analisar mais a fundo, pois também temos a data de nascimento.

Data de nascimento

Sabendo dos outliers anteriores possivelmente por um erro de digitação podemos verificar se existe alguém que nasceu antes de 1911.

- Podemos ver que existe cinco pessoas nascidas antes de 1911

  • Sendo assim vamos calcular a diferença da data de nascimento para o ano atual e corrigir esses outliers.

- A data de nascimento também representa o valor igual da idade de cada paciente, pode ser que somente um dos dois valores são preenchidos
(idade ou data de nascimento) e o outro calculado por um sistema.

  • Nesse caso uma opção e substituir esses outliers pela media de idade do conjunto de dados ou remover esses dados.

Raça do paciente

1 — Negros estão desproporcionais na vacinação em relação a população geral por raça.
https://apublica.org/2021/03/brasil-registra-duas-vezes-mais-pessoas-brancas-vacinadas-que-negras/

2 — Muitos registros sem a informação da raça.

Vacinação por cidades

A vacinação está mais avançada em algumas cidades comparado a outras.

Exemplo: Apesar da cidade de Sorocaba ter uma população maior que de Santos, Santos vacina mais.
- Isso pode ser por diversos fatores, como por exemplo a cidade de Santos possuir mais idosos.
- Veja: https://noticias.r7.com/sao-paulo/sp-tem-15-cidades-entre-as-melhores-do-pais-para-envelhecer-diz-estudo-15102020

Utilizando machine learning para agrupamento

Usando a aprendizagem não supervisionada com o algoritmo Kmeans com 4 clusters podemos ver o resultado do agrupamento.

Foi usado também o PCA para reduzir a dimensionalidade.

Nesse artigo podemos ver como podemos usar os dados abertos do governo federal para explorações de dados.

Veja o notebook completo no GitHub.

Referências:

https://dados.gov.br/dataset/covid-19-vacinacao

--

--