Free Trial

Blog

Insights e ideias das mentes mais brilhantes em análise de dados.
Garabujo7
Alteryx
Alteryx

Análise Exploratória de Dados P2

 

pablo(34).png

 

Neste novo artigo continuarei o tema da análise exploratória de dados que iniciei no anterior.

 

Limpeza

 

Se ao revisar os dados, detectarmos que temos valores nulos, espaços extras no início ou no final e outros problemas que ocorrem frequentemente com os dados, podemos resolvê-los facilmente usando a ferramenta de limpeza, que se encontra na categoria Preparação.

 

 

Garabujo7_0-1655932933286.png

 

 

Com isso, ao selecionar as colunas que precisam de limpeza podemos:

 

  • Remova colunas ou linhas inteiras que tenham apenas valores nulos

 

  • Substitua valores nulos por espaços em branco no caso de campos de texto e altere nulos para zeros no caso de numéricos

 

  • Remova espaços em branco à esquerda e à direita, tabulações, quebras de linha e espaços duplicados

 

  • Remova todos os espaços em branco

 

  • Remova números, letras ou sinais de pontuação

 

  • Altera o texto para maiúsculas, minúsculas ou apenas a primeira letra de cada palavra em maiúscula

 

 

 

Garabujo7_1-1655932933290.png

 

 

Essa ferramenta facilita as tarefas de limpeza mais comuns que ocorrem em praticamente qualquer conjunto de dados.

 

Janela de Resultados

 

Também é possível fazer a limpeza diretamente nos dados.

 

 

Garabujo7_2-1655932933295.png

 

 

Ao visualizar os dados, podemos clicar nos 3 pontos que aparecem ao lado do campo. Um menu é exibido com opções de acordo com o tipo de dados para limpar, filtrar ou classificar diretamente nos resultados.

 

Quando selecionamos o tratamento desejado, devemos clicar em Aplicar para ver o resultado, que nos apresentará os dados diretamente, se também quisermos adicionar a ferramenta ao nosso fluxo, podemos fazê-lo clicando na verificação que aparece acima , se não quisermos manter o processo que fizemos, podemos selecionar o ícone vermelho para removê-lo.

 

 

Garabujo7_3-1655932933296.png

 

 

Saúde dos Dados

 

Para saber mais sobre a integridade dos dados com um relatório de um clique, podemos usar a ferramenta Saúde dos Dados encontrada na categoria Aprendizado Automático.

 

 

Garabujo7_4-1655932933298.png

 

 

Não requer configuração e nos permite ver dados discrepantes, que estão fora dos intervalos da maioria.

 

 

 

Garabujo7_5-1655932933300.png

 

 

Esses valores podem ser problemáticos para nossas análises, por isso é importante identificá-los e tratá-los adequadamente.

 

Por exemplo, em nosso conjunto de dados, temos jogadores com 45 anos, mas pode haver alguns com 55 ou 60, apenas alguns, mas estão fora do alcance. Isso pode ser devido a erros na captura de dados, uma anomalia que vale a pena analisar individualmente ou desvios que é melhor reduzir para que não influenciem o restante de nossas análises.

 

 

Garabujo7_6-1655932933302.png

 

 

 

O relatório de saúde nos diz que temos 17 colunas que não apresentam problemas atípicos, 1 classificada como ruim e 25 classificada como muito ruim.

 

Para resolvê-lo, podemos usar a macro gratuita CreW Modify Outliers que você pode encontrar na Galeria pública dentro da comunidade.

 

 

 

Garabujo7_7-1655932933304.png

 

 

 

Você também a encontrará anexada no final deste artigo.

 

Essa macro possui várias opções extremamente úteis e simples.

 

Primeiramente, faremos a seleção dos campos.

 

É uma boa prática deixar de fora os campos de ID, pois eles não são úteis para nossa análise.

 

 

 

Garabujo7_8-1655932933306.png

 

 

 

Em seguida, podemos remover os outliers diretamente, é a opção mais simples e recomendada dependendo do tipo de análise que vamos realizar.

 

 

 

Garabujo7_9-1655932933306.png

 

 

 

A última opção que podemos tomar é manter os valores discrepantes, mas limitados. Isso é feito com:

 

  • Intervalo interquartil (IQR), se o valor estiver a 1,5 quartil da média, ele atualizará seu valor

 

  • Desvio padrão, 1 ou 2 desvios para modificar os limites

 

  • Média, para substituir valores discrepantes pela média

 

 

 

Garabujo7_10-1655932933308.png

 

 

 

Essa é uma maneira rápida e fácil de reduzir o impacto de discrepâncias nas análises posteriores.

 

Resumo do Campo

 

Outra ótima opção para explorar dados é utilizar a ferramenta de resumo de campo, encontrada na categoria Investigação de Dados.

 

 

Garabujo7_11-1655932933311.png

 

 

 

A configuração é muito simples, apenas selecionamos os campos que queremos explorar e pronto. Caso seja um conjunto de dados muito grande, para agilizar o processo podemos selecionar uma amostra dos dados também.

 

 

 

Garabujo7_12-1655932933314.png

 

 

 

Ele nos mostra duas saídas, uma com um relatório estático e outra com um dinâmico.

 

O relatório estático apresenta um gráfico de dispersão para os valores numéricos e estatísticas de tendência central.

 

 

 

Garabujo7_13-1655932933315.png

 

 

Isso é útil para identificar a distribuição de campos e a presença de valores discrepantes em um gráfico de dispersão.

 

As informações que aparecem dependem do tipo de dados do campo selecionado.

 

Na saída do relatório interativo podemos ver histogramas de todas as colunas, isso é interativo.

 

 

Garabujo7_14-1655932933319.png

 

 

É possível filtrar as colunas que queremos ver e clicar em qualquer gráfico para ir ao detalhe.

 

 

Garabujo7_15-1655932933321.png

 

 

E abaixo as estatísticas e um resumo do campo.

 

 

Garabujo7_16-1655932933323.png

 

 

Isso nos permitirá conhecer nossos dados com mais detalhes, descobrir relacionamentos entre colunas que não conhecíamos e outras descobertas relevantes.

 

Análise Bivariada

 

Para continuar com as visualizações, podemos usar duas variáveis para ver sua influência e relação entre elas.

 

Se tivermos apenas valores numéricos, usamos um gráfico de dispersão encontrado na categoria Investigação de dados.

 

 

Garabujo7_17-1655932933324.png

 

 

A configuração requer apenas a seleção de 2 campos numéricos para gerar a exibição.

 

 

Garabujo7_18-1655932933325.png

 

 

O relatório apresenta-nos o contraste entre ambas as variáveis, neste caso a Idade no X e o salário no Y. Assim, vemos a relação entre ambas, e podemos concluir que os jogadores que mais ganham estão entre os 30-35 anos, o próximo nível salarial mais alto é entre 25-30 anos.

 

 

Garabujo7_19-1655932933332.png

 

 

 

À direita também podemos ver que temos alguns jogadores mais velhos que os restantes e, no salário, mostra-nos que alguns jogadores ganham muito mais do que a maioria.

 

 

Garabujo7_20-1655932933340.png

 

 

 

Este gráfico é muito útil para entender a influência de duas variáveis, além de sua distribuição e nos permitirá determinar se o guardamos para nossa análise.

 

 

 

Garabujo7_21-1655932933341.png

 

 

Faremos a seguinte análise bivariada com um gráfico de barras, utilizando a ferramenta de gráfico interativo da categoria Gerador de Relatórios.

 

Para as equipes mais antigas, classificamos os clubes em ordem decrescente por idade, selecionamos os 10 melhores clubes e os plotamos.

 

Para as equipes mais jovens, classificamos os clubes em ordem decrescente por idade, selecionamos os 10 melhores clubes e os plotamos.

 

Para selecionar uma amostra de dados, usamos a ferramenta Amostra, que está na categoria de preparação.

 

 

Garabujo7_22-1655932933341.png

 

 

Na configuração, adicionamos o campo de clube e a idade.

 

 

Garabujo7_23-1655932933344.png

 

 

 

Aqui podemos ver quais equipes têm os jogadores mais velhos e quais têm os mais jovens.

 

 

 

Garabujo7_24-1655932933358.png

 

 

Isso nos permitirá ampliar o conhecimento dos dados, como eles se relacionam e interagem entre si.

 

Conclusão

 

Como vimos, é muito importante que, antes de fazer qualquer análise, comecemos a explorar os dados que temos.

 

Conheça o estado que eles têm, se precisam de limpeza, estruture-os ou transforme-os.

 

Identifique possíveis erros de captura nos processos, entenda como eles são e com base nisso, tome decisões e obtenha resultados dos dados rapidamente.

 

Desta forma, os passos seguintes de qualquer análise que realizamos serão mais simples.

 

Rótulos