EDA com dados do PORTAL BRASILEIRO DE DADOS ABERTOS
Exploratory Data Analysis (EDA) que significa Análise Exploratória de Dados e uma abordagem de exploração dos dados, afim de medir dispersão nos dados ou anomalias, entre outras.
O que são dados abertos?
Dados são abertos quando qualquer pessoa pode livremente acessá-los, utilizá-los, modificá-los e compartilhá-los para qualquer finalidade, estando sujeito a, no máximo, a exigências que visem preservar sua proveniência e sua abertura.
Baixando os dados da Campanha Nacional de Vacinação contra Covid-19
O Ministério da Saúde, por meio do Sistema de Informação do Programa Nacional de Imunizações (SI-PNI), disponibiliza nesta página dados referentes à Campanha Nacional de Vacinação contra Covid-19 para análise de instituições interessadas e do público.
https://dados.gov.br/dataset/covid-19-vacinacao
Podemos usar uma API ou fazer o download de um CSV.
Existem apenas 582k registros, aparentemente não há os dados de todos os vacinados.
Verificando as colunas
EDA SIMPLES
- Removendo valores duplicados e valores perdidos (Nulos)
- As linhas duplicadas vamos remover
- Valores nulos podemos fazer:
1 — Escolher um método para filtrar as Nans dependendo da situação.
2 — Usualmente uma maneira que funciona muito bem e substituir pela media, mediana ou -999.
- Devemos tratar valores nulos antes da Features Generation.
Vamos analisar algumas colunas
Idade paciente
- Erros de digitação
1 — Existem alguns outliers nos dados, pois certamente não tem pessoas com mais de 110 anos de idade.
2 — Há também registros de pacientes com menos de 18 anos, porém a vacinação ainda não começou nessa faixa etária.
Existem algumas opções para tratar esses dados.
— Substituir pela media
— Excluir o registro
— Analisar o registro separadamente
— Aplicar um método de clusterização
Nesse caso vamos analisar mais a fundo, pois também temos a data de nascimento.
Data de nascimento
Sabendo dos outliers anteriores possivelmente por um erro de digitação podemos verificar se existe alguém que nasceu antes de 1911.
- Podemos ver que existe cinco pessoas nascidas antes de 1911
- Sendo assim vamos calcular a diferença da data de nascimento para o ano atual e corrigir esses outliers.
- A data de nascimento também representa o valor igual da idade de cada paciente, pode ser que somente um dos dois valores são preenchidos
(idade ou data de nascimento) e o outro calculado por um sistema.
- Nesse caso uma opção e substituir esses outliers pela media de idade do conjunto de dados ou remover esses dados.
Raça do paciente
1 — Negros estão desproporcionais na vacinação em relação a população geral por raça.
https://apublica.org/2021/03/brasil-registra-duas-vezes-mais-pessoas-brancas-vacinadas-que-negras/
2 — Muitos registros sem a informação da raça.
Vacinação por cidades
A vacinação está mais avançada em algumas cidades comparado a outras.
- Apesar de não estarmos com todos os registros, a proporção está parecida.
- Veja: https://vacinaja.sp.gov.br/vacinometro/ - - Olhando as cidades mais populosas também podemos ver que todas estão seguindo uma proporção parecida.
- Veja:https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_de_S%C3%A3o_Paulo_por_popula%C3%A7%C3%A3o
Exemplo: Apesar da cidade de Sorocaba ter uma população maior que de Santos, Santos vacina mais.
- Isso pode ser por diversos fatores, como por exemplo a cidade de Santos possuir mais idosos.
- Veja: https://noticias.r7.com/sao-paulo/sp-tem-15-cidades-entre-as-melhores-do-pais-para-envelhecer-diz-estudo-15102020
Utilizando machine learning para agrupamento
Usando a aprendizagem não supervisionada com o algoritmo Kmeans com 4 clusters podemos ver o resultado do agrupamento.
Foi usado também o PCA para reduzir a dimensionalidade.
Nesse artigo podemos ver como podemos usar os dados abertos do governo federal para explorações de dados.
Veja o notebook completo no GitHub.
Referências: