Free Trial

Blog

Insights e ideias das mentes mais brilhantes em análise de dados.
Garabujo7
Alteryx
Alteryx

pablo(33).png

 

Quando iniciamos qualquer processo de análise de dados, uma parte fundamental, e que geralmente ignoramos, é a Análise Exploratória de Dados, e por que ela é tão importante?

 

Os dados nem sempre (quase nunca) são perfeitos, é necessário verificar a sua qualidade. Verifique se não há valores nulos, espaços vazios, espaços extras em branco, quebras de linha, enfim, vários detalhes que são o dia a dia dos dados.

 

Distribuição de Dados

 

Também podemos revisar a distribuição dos dados. Eles geralmente são considerados como tendo o que chamamos de distribuição normal ou quase normal.

 

Para este artigo, usarei um conjunto de dados de jogadores da FIFA em 2019, que você pode revisar aqui.

 

 

Garabujo7_0-1655932050235.png

 

 

Na imagem acima podemos ver como os dados estão agrupados, permite-nos ver como os dados estão distribuídos por todo o conjunto que temos.

 

Eles têm uma distribuição mais ou menos normal, a maioria está perto do centro e as bordas têm menos dados. No entanto, isso nem sempre é o caso.

 

Muitos dados estão enviesados para um dos extremos, o que indica que a maioria dos registros apresenta estes valores:

 

 

Garabujo7_1-1655932050236.png

 

 

Aqui vemos como a energia dos jogadores tem um viés para a esquerda. A maioria dos jogadores, sendo profissionais, tem grande energia, embora olhando para a distribuição percebemos que existem jogadores com menos energia do que a maioria.

 

A partir daí podemos supor que pode estar relacionado à posição do jogador em campo, talvez os goleiros não exijam tanta energia, mas reflexos. Eles são o tipo de conclusões que podemos tirar da visualização dos dados e que podem ser úteis para nós posteriormente em nossas análises.

 

 

Garabujo7_2-1655932050236.png

 

 

O peso, por outro lado, é enviesado para a direita. A maioria dos jogadores tem um peso semelhante, embora possa haver jogadores mais pesados. Talvez devido à sua altura.

 

Com a distribuição também é possível conhecer os intervalos dos dados e como eles estão agrupados para tomar decisões sobre como tratá-los para análise.

 

A Ferramenta Navegar

 

A criação de perfil de dados é uma das primeiras análises visuais que fazemos para entender sua saúde geral.

 

No Alteryx Designer, usamos uma ferramenta muito versátil para isso: Navegar

 

 

 

Garabujo7_3-1655932050237.png

 

 

Com ele podemos traçar o perfil dos dados, ver mapas, relatórios interativos e estáticos de muitas outras ferramentas.

 

Nesse caso, usaremos a parte de criação de perfil de dados.

 

Se virmos os dados na janela de resultados, na metade inferior da tela. Podemos ver todas as colunas que temos.

 

Se colocarmos o cursor do mouse no cabeçalho de uma coluna, podemos ver sua qualidade geral.

 

 

Garabujo7_4-1655932050239.png

 

 

Neste caso a coluna LS tem um percentual de 11,45 registros vazios. Isso pode ser um problema de qualidade, um bug ou algo normal nos dados. Com essa visualização, podemos garantir que as colunas tenham a qualidade esperada.

 

Na janela de configuração, na metade direita, também podemos ver as características da coluna, seu tipo de dado e os 5 primeiros valores que mais se repetem em cada uma.

 

 

Garabujo7_5-1655932050244.png

 

 

Também podemos notar que é possível detectar o número de valores nulos mesmo sendo uma quantidade mínima, como na imagem, que representa apenas 1,32% do total.

 

Aqui podemos alterar a visualização, de ver os valores para gráficos de frequência se clicarmos no canto superior direito.

 

 

Garabujo7_6-1655932050247.png

 

 

E se selecionarmos o filtro que aparece à direita, podemos filtrar os campos por nome ou por tipo de dados.

 

 

Garabujo7_7-1655932050249.png

 

 

Perfil de Dados

 

Se clicarmos na coluna de idade, ela nos mostrará o perfil do campo.

 

 

Garabujo7_8-1655932050250.png

 

 

A primeira parte nos apresenta um resumo do campo.

 

O tipo de dados, número de registros e seu tamanho.

 

Abaixo está a qualidade geral dos campos organizados por cores, juntamente com o número de registros e a porcentagem que eles representam do total.

 

  • Verde, aceitável. Sem problemas de qualidade

 

  • Único. São os valores que não se repetem no conjunto de dados

 

  • Amarelo, registros com valores nulos

 

  • Vermelho, não aceitável. Possui espaços extras no início e no final do campo

 

  • Cinza, vazio. campos sem valores

 

 

A seção a seguir tem estatísticas dos valores:

 

 

Garabujo7_9-1655932050252.png

 

 

Aqui podemos observar o valor máximo e o mínimo. O jogador mais velho, por exemplo, tem 45 anos e o mais novo, 16.

 

Quartis

 

Quartis, que dividem o conjunto de dados em 4. Possuem o quartil inferior e superior que é onde se encontra a maioria dos valores. Neste os jogadores têm entre 21 e 28 anos, embora alguns possam ir dos 16 aos 45 mas não é o habitual.

 

A seguir, mostro um gráfico de caixa, é uma visualização muito útil para resumir os dados.

 

Lá ele nos mostra onde está localizada a maioria dos dados, entre o segundo e o terceiro quartil, os limites inferior e superior dos dados e os registros que estão exatamente no meio.

 

 

Garabujo7_10-1655932050256.png

 

 

 

As seguintes métricas são:

 

  • A média, que é onde se encontra o maior número de valores, embora descrever um conjunto de dados possa ser enganoso, pois é afetado por registros muito distantes do centro. Para isso usamos o desvio padrão, para saber o quanto os valores variam da média. Neste caso, a média é 25

 

  • A mediana é o valor que divide os dados exatamente pela metade, e a variância indica a dispersão dos dados a partir do centro

 

  • A última seção são os primeiros 5 valores do campo. Se clicarmos em mais, podemos ver o restante dos valores

 

 

Garabujo7_11-1655932050257.png

 

 

 

Próxima parte

 

Rótulos