- Inscrever-se no RSS Feed
- Marcar como novo
- Marcar como lido
- Marcar como favorito
- Inscrever-se
- Versão para impressão
- Notificar o moderador
- Inscrever-se no RSS Feed
- Marcar como novo
- Marcar como lido
- Marcar como favorito
- Inscrever-se
- Versão para impressão
- Notificar o moderador
Análise Exploratória de Dados P2
Neste novo artigo continuarei o tema da análise exploratória de dados que iniciei no anterior.
Limpeza
Se ao revisar os dados, detectarmos que temos valores nulos, espaços extras no início ou no final e outros problemas que ocorrem frequentemente com os dados, podemos resolvê-los facilmente usando a ferramenta de limpeza, que se encontra na categoria Preparação.
Com isso, ao selecionar as colunas que precisam de limpeza podemos:
- Remova colunas ou linhas inteiras que tenham apenas valores nulos
- Substitua valores nulos por espaços em branco no caso de campos de texto e altere nulos para zeros no caso de numéricos
- Remova espaços em branco à esquerda e à direita, tabulações, quebras de linha e espaços duplicados
- Remova todos os espaços em branco
- Remova números, letras ou sinais de pontuação
- Altera o texto para maiúsculas, minúsculas ou apenas a primeira letra de cada palavra em maiúscula
Essa ferramenta facilita as tarefas de limpeza mais comuns que ocorrem em praticamente qualquer conjunto de dados.
Janela de Resultados
Também é possível fazer a limpeza diretamente nos dados.
Ao visualizar os dados, podemos clicar nos 3 pontos que aparecem ao lado do campo. Um menu é exibido com opções de acordo com o tipo de dados para limpar, filtrar ou classificar diretamente nos resultados.
Quando selecionamos o tratamento desejado, devemos clicar em Aplicar para ver o resultado, que nos apresentará os dados diretamente, se também quisermos adicionar a ferramenta ao nosso fluxo, podemos fazê-lo clicando na verificação que aparece acima , se não quisermos manter o processo que fizemos, podemos selecionar o ícone vermelho para removê-lo.
Saúde dos Dados
Para saber mais sobre a integridade dos dados com um relatório de um clique, podemos usar a ferramenta Saúde dos Dados encontrada na categoria Aprendizado Automático.
Não requer configuração e nos permite ver dados discrepantes, que estão fora dos intervalos da maioria.
Esses valores podem ser problemáticos para nossas análises, por isso é importante identificá-los e tratá-los adequadamente.
Por exemplo, em nosso conjunto de dados, temos jogadores com 45 anos, mas pode haver alguns com 55 ou 60, apenas alguns, mas estão fora do alcance. Isso pode ser devido a erros na captura de dados, uma anomalia que vale a pena analisar individualmente ou desvios que é melhor reduzir para que não influenciem o restante de nossas análises.
O relatório de saúde nos diz que temos 17 colunas que não apresentam problemas atípicos, 1 classificada como ruim e 25 classificada como muito ruim.
Para resolvê-lo, podemos usar a macro gratuita CreW Modify Outliers que você pode encontrar na Galeria pública dentro da comunidade.
Você também a encontrará anexada no final deste artigo.
Essa macro possui várias opções extremamente úteis e simples.
Primeiramente, faremos a seleção dos campos.
É uma boa prática deixar de fora os campos de ID, pois eles não são úteis para nossa análise.
Em seguida, podemos remover os outliers diretamente, é a opção mais simples e recomendada dependendo do tipo de análise que vamos realizar.
A última opção que podemos tomar é manter os valores discrepantes, mas limitados. Isso é feito com:
- Intervalo interquartil (IQR), se o valor estiver a 1,5 quartil da média, ele atualizará seu valor
- Desvio padrão, 1 ou 2 desvios para modificar os limites
- Média, para substituir valores discrepantes pela média
Essa é uma maneira rápida e fácil de reduzir o impacto de discrepâncias nas análises posteriores.
Resumo do Campo
Outra ótima opção para explorar dados é utilizar a ferramenta de resumo de campo, encontrada na categoria Investigação de Dados.
A configuração é muito simples, apenas selecionamos os campos que queremos explorar e pronto. Caso seja um conjunto de dados muito grande, para agilizar o processo podemos selecionar uma amostra dos dados também.
Ele nos mostra duas saídas, uma com um relatório estático e outra com um dinâmico.
O relatório estático apresenta um gráfico de dispersão para os valores numéricos e estatísticas de tendência central.
Isso é útil para identificar a distribuição de campos e a presença de valores discrepantes em um gráfico de dispersão.
As informações que aparecem dependem do tipo de dados do campo selecionado.
Na saída do relatório interativo podemos ver histogramas de todas as colunas, isso é interativo.
É possível filtrar as colunas que queremos ver e clicar em qualquer gráfico para ir ao detalhe.
E abaixo as estatísticas e um resumo do campo.
Isso nos permitirá conhecer nossos dados com mais detalhes, descobrir relacionamentos entre colunas que não conhecíamos e outras descobertas relevantes.
Análise Bivariada
Para continuar com as visualizações, podemos usar duas variáveis para ver sua influência e relação entre elas.
Se tivermos apenas valores numéricos, usamos um gráfico de dispersão encontrado na categoria Investigação de dados.
A configuração requer apenas a seleção de 2 campos numéricos para gerar a exibição.
O relatório apresenta-nos o contraste entre ambas as variáveis, neste caso a Idade no X e o salário no Y. Assim, vemos a relação entre ambas, e podemos concluir que os jogadores que mais ganham estão entre os 30-35 anos, o próximo nível salarial mais alto é entre 25-30 anos.
À direita também podemos ver que temos alguns jogadores mais velhos que os restantes e, no salário, mostra-nos que alguns jogadores ganham muito mais do que a maioria.
Este gráfico é muito útil para entender a influência de duas variáveis, além de sua distribuição e nos permitirá determinar se o guardamos para nossa análise.
Faremos a seguinte análise bivariada com um gráfico de barras, utilizando a ferramenta de gráfico interativo da categoria Gerador de Relatórios.
Para as equipes mais antigas, classificamos os clubes em ordem decrescente por idade, selecionamos os 10 melhores clubes e os plotamos.
Para as equipes mais jovens, classificamos os clubes em ordem decrescente por idade, selecionamos os 10 melhores clubes e os plotamos.
Para selecionar uma amostra de dados, usamos a ferramenta Amostra, que está na categoria de preparação.
Na configuração, adicionamos o campo de clube e a idade.
Aqui podemos ver quais equipes têm os jogadores mais velhos e quais têm os mais jovens.
Isso nos permitirá ampliar o conhecimento dos dados, como eles se relacionam e interagem entre si.
Conclusão
Como vimos, é muito importante que, antes de fazer qualquer análise, comecemos a explorar os dados que temos.
Conheça o estado que eles têm, se precisam de limpeza, estruture-os ou transforme-os.
Identifique possíveis erros de captura nos processos, entenda como eles são e com base nisso, tome decisões e obtenha resultados dos dados rapidamente.
Desta forma, os passos seguintes de qualquer análise que realizamos serão mais simples.
Você deve ser um usuário registrado para adicionar um comentário aqui. Se você já estiver registrado, faça logon. Se você ainda não estiver registrado, registre-se e faça logon.