Quando iniciamos qualquer processo de análise de dados, uma parte fundamental, e que geralmente ignoramos, é a Análise Exploratória de Dados, e por que ela é tão importante?
Os dados nem sempre (quase nunca) são perfeitos, é necessário verificar a sua qualidade. Verifique se não há valores nulos, espaços vazios, espaços extras em branco, quebras de linha, enfim, vários detalhes que são o dia a dia dos dados.
Também podemos revisar a distribuição dos dados. Eles geralmente são considerados como tendo o que chamamos de distribuição normal ou quase normal.
Para este artigo, usarei um conjunto de dados de jogadores da FIFA em 2019, que você pode revisar aqui.
Na imagem acima podemos ver como os dados estão agrupados, permite-nos ver como os dados estão distribuídos por todo o conjunto que temos.
Eles têm uma distribuição mais ou menos normal, a maioria está perto do centro e as bordas têm menos dados. No entanto, isso nem sempre é o caso.
Muitos dados estão enviesados para um dos extremos, o que indica que a maioria dos registros apresenta estes valores:
Aqui vemos como a energia dos jogadores tem um viés para a esquerda. A maioria dos jogadores, sendo profissionais, tem grande energia, embora olhando para a distribuição percebemos que existem jogadores com menos energia do que a maioria.
A partir daí podemos supor que pode estar relacionado à posição do jogador em campo, talvez os goleiros não exijam tanta energia, mas reflexos. Eles são o tipo de conclusões que podemos tirar da visualização dos dados e que podem ser úteis para nós posteriormente em nossas análises.
O peso, por outro lado, é enviesado para a direita. A maioria dos jogadores tem um peso semelhante, embora possa haver jogadores mais pesados. Talvez devido à sua altura.
Com a distribuição também é possível conhecer os intervalos dos dados e como eles estão agrupados para tomar decisões sobre como tratá-los para análise.
A criação de perfil de dados é uma das primeiras análises visuais que fazemos para entender sua saúde geral.
No Alteryx Designer, usamos uma ferramenta muito versátil para isso: Navegar
Com ele podemos traçar o perfil dos dados, ver mapas, relatórios interativos e estáticos de muitas outras ferramentas.
Nesse caso, usaremos a parte de criação de perfil de dados.
Se virmos os dados na janela de resultados, na metade inferior da tela. Podemos ver todas as colunas que temos.
Se colocarmos o cursor do mouse no cabeçalho de uma coluna, podemos ver sua qualidade geral.
Neste caso a coluna LS tem um percentual de 11,45 registros vazios. Isso pode ser um problema de qualidade, um bug ou algo normal nos dados. Com essa visualização, podemos garantir que as colunas tenham a qualidade esperada.
Na janela de configuração, na metade direita, também podemos ver as características da coluna, seu tipo de dado e os 5 primeiros valores que mais se repetem em cada uma.
Também podemos notar que é possível detectar o número de valores nulos mesmo sendo uma quantidade mínima, como na imagem, que representa apenas 1,32% do total.
Aqui podemos alterar a visualização, de ver os valores para gráficos de frequência se clicarmos no canto superior direito.
E se selecionarmos o filtro que aparece à direita, podemos filtrar os campos por nome ou por tipo de dados.
Se clicarmos na coluna de idade, ela nos mostrará o perfil do campo.
A primeira parte nos apresenta um resumo do campo.
O tipo de dados, número de registros e seu tamanho.
Abaixo está a qualidade geral dos campos organizados por cores, juntamente com o número de registros e a porcentagem que eles representam do total.
A seção a seguir tem estatísticas dos valores:
Aqui podemos observar o valor máximo e o mínimo. O jogador mais velho, por exemplo, tem 45 anos e o mais novo, 16.
Quartis, que dividem o conjunto de dados em 4. Possuem o quartil inferior e superior que é onde se encontra a maioria dos valores. Neste os jogadores têm entre 21 e 28 anos, embora alguns possam ir dos 16 aos 45 mas não é o habitual.
A seguir, mostro um gráfico de caixa, é uma visualização muito útil para resumir os dados.
Lá ele nos mostra onde está localizada a maioria dos dados, entre o segundo e o terceiro quartil, os limites inferior e superior dos dados e os registros que estão exatamente no meio.
As seguintes métricas são:
Você deve ser um usuário registrado para adicionar um comentário aqui. Se você já estiver registrado, faça logon. Se você ainda não estiver registrado, registre-se e faça logon.