- Inscrever-se no RSS Feed
- Marcar como novo
- Marcar como lido
- Marcar como favorito
- Inscrever-se
- Versão para impressão
- Notificar o moderador
- Inscrever-se no RSS Feed
- Marcar como novo
- Marcar como lido
- Marcar como favorito
- Inscrever-se
- Versão para impressão
- Notificar o moderador
Quando iniciamos qualquer processo de análise de dados, uma parte fundamental, e que geralmente ignoramos, é a Análise Exploratória de Dados, e por que ela é tão importante?
Os dados nem sempre (quase nunca) são perfeitos, é necessário verificar a sua qualidade. Verifique se não há valores nulos, espaços vazios, espaços extras em branco, quebras de linha, enfim, vários detalhes que são o dia a dia dos dados.
Distribuição de Dados
Também podemos revisar a distribuição dos dados. Eles geralmente são considerados como tendo o que chamamos de distribuição normal ou quase normal.
Para este artigo, usarei um conjunto de dados de jogadores da FIFA em 2019, que você pode revisar aqui.
Na imagem acima podemos ver como os dados estão agrupados, permite-nos ver como os dados estão distribuídos por todo o conjunto que temos.
Eles têm uma distribuição mais ou menos normal, a maioria está perto do centro e as bordas têm menos dados. No entanto, isso nem sempre é o caso.
Muitos dados estão enviesados para um dos extremos, o que indica que a maioria dos registros apresenta estes valores:
Aqui vemos como a energia dos jogadores tem um viés para a esquerda. A maioria dos jogadores, sendo profissionais, tem grande energia, embora olhando para a distribuição percebemos que existem jogadores com menos energia do que a maioria.
A partir daí podemos supor que pode estar relacionado à posição do jogador em campo, talvez os goleiros não exijam tanta energia, mas reflexos. Eles são o tipo de conclusões que podemos tirar da visualização dos dados e que podem ser úteis para nós posteriormente em nossas análises.
O peso, por outro lado, é enviesado para a direita. A maioria dos jogadores tem um peso semelhante, embora possa haver jogadores mais pesados. Talvez devido à sua altura.
Com a distribuição também é possível conhecer os intervalos dos dados e como eles estão agrupados para tomar decisões sobre como tratá-los para análise.
A Ferramenta Navegar
A criação de perfil de dados é uma das primeiras análises visuais que fazemos para entender sua saúde geral.
No Alteryx Designer, usamos uma ferramenta muito versátil para isso: Navegar
Com ele podemos traçar o perfil dos dados, ver mapas, relatórios interativos e estáticos de muitas outras ferramentas.
Nesse caso, usaremos a parte de criação de perfil de dados.
Se virmos os dados na janela de resultados, na metade inferior da tela. Podemos ver todas as colunas que temos.
Se colocarmos o cursor do mouse no cabeçalho de uma coluna, podemos ver sua qualidade geral.
Neste caso a coluna LS tem um percentual de 11,45 registros vazios. Isso pode ser um problema de qualidade, um bug ou algo normal nos dados. Com essa visualização, podemos garantir que as colunas tenham a qualidade esperada.
Na janela de configuração, na metade direita, também podemos ver as características da coluna, seu tipo de dado e os 5 primeiros valores que mais se repetem em cada uma.
Também podemos notar que é possível detectar o número de valores nulos mesmo sendo uma quantidade mínima, como na imagem, que representa apenas 1,32% do total.
Aqui podemos alterar a visualização, de ver os valores para gráficos de frequência se clicarmos no canto superior direito.
E se selecionarmos o filtro que aparece à direita, podemos filtrar os campos por nome ou por tipo de dados.
Perfil de Dados
Se clicarmos na coluna de idade, ela nos mostrará o perfil do campo.
A primeira parte nos apresenta um resumo do campo.
O tipo de dados, número de registros e seu tamanho.
Abaixo está a qualidade geral dos campos organizados por cores, juntamente com o número de registros e a porcentagem que eles representam do total.
- Verde, aceitável. Sem problemas de qualidade
- Único. São os valores que não se repetem no conjunto de dados
- Amarelo, registros com valores nulos
- Vermelho, não aceitável. Possui espaços extras no início e no final do campo
- Cinza, vazio. campos sem valores
A seção a seguir tem estatísticas dos valores:
Aqui podemos observar o valor máximo e o mínimo. O jogador mais velho, por exemplo, tem 45 anos e o mais novo, 16.
Quartis
Quartis, que dividem o conjunto de dados em 4. Possuem o quartil inferior e superior que é onde se encontra a maioria dos valores. Neste os jogadores têm entre 21 e 28 anos, embora alguns possam ir dos 16 aos 45 mas não é o habitual.
A seguir, mostro um gráfico de caixa, é uma visualização muito útil para resumir os dados.
Lá ele nos mostra onde está localizada a maioria dos dados, entre o segundo e o terceiro quartil, os limites inferior e superior dos dados e os registros que estão exatamente no meio.
As seguintes métricas são:
- A média, que é onde se encontra o maior número de valores, embora descrever um conjunto de dados possa ser enganoso, pois é afetado por registros muito distantes do centro. Para isso usamos o desvio padrão, para saber o quanto os valores variam da média. Neste caso, a média é 25
- A mediana é o valor que divide os dados exatamente pela metade, e a variância indica a dispersão dos dados a partir do centro
- A última seção são os primeiros 5 valores do campo. Se clicarmos em mais, podemos ver o restante dos valores
Próxima parte
Você deve ser um usuário registrado para adicionar um comentário aqui. Se você já estiver registrado, faça logon. Se você ainda não estiver registrado, registre-se e faça logon.