Free Trial

Blog

Insights e ideias das mentes mais brilhantes em análise de dados.
Garabujo7
Alteryx
Alteryx

Na primeira parte desta série falamos sobre:

 

  • Obtenha os dados
  • Integração com Alteryx Designer
  • Dados de preparação
  • Saúde dos dados
  • Descobertas nos Dados

 

Nesta segunda parte de três, falaremos sobre como configurar a plataforma para criar os modelos preditivos. Começando com:

 

Seleção da variável objetivo

 

É aqui que escolhemos a variável que queremos prever, esse é o resultado que esperamos obter com nossos modelos de aprendizado de máquina.

 

Neste exemplo, a variável de destino será o status da reserva. É uma variável categórica, pois possui 2 valores ou categorias que estamos interessados em prever.

 

Cancelado e não cancelado. O objetivo de criar este modelo preditivo será prever as reservas que podem ser canceladas e aquelas que não serão.

 

Outro detalhe a ter em conta será saber os motivos pelos quais algumas reservas são canceladas e outras permanecem, o que é muito importante para a saúde do negócio.

 

 

Garabujo7_1-1659734980897.png

 

 

 

A próxima opção que devemos selecionar é o método de aprendizado de máquina que aplicaremos.

Temos 3 possibilidades:

 

  1. Classificação
  2. Regressão
  3. Regressão de séries temporais

 

Classificação

 

Será útil para nós atribuir uma categoria a cada reserva. As opções podem ser 2 ou mais.

 

No nosso caso, será o status da reserva e tem 2 possibilidades: Cancelada e Não Cancelada.

 

Outra forma de olhar é: qual é o objetivo da nossa análise, saber quais são as características das reservas que serão canceladas.

 

Desta forma poderemos antecipar e tomar medidas para reduzir os cancelamentos, reduzir o custo das reservas canceladas e garantir que a maioria das reservas se mantém ao longo do tempo.

 

Regressão

 

Quando nosso objetivo é prever um número ou quantidade, aplicamos uma técnica de regressão que nos permitirá ver qual é o número mais provável que obteremos, bem como as causas que o geram.

 

Neste exemplo pode ser o custo do bilhete ou o número de hóspedes que o hotel irá receber.

 

Regressão de Séries Temporais

 

A terceira técnica que a plataforma possui nos dá a possibilidade de prever o número de pessoas que ficarão nos próximos 6 meses, por exemplo. Isso projetará os resultados ao longo do tempo para entender como eles se comportarão, vinculados aos períodos seguintes.

 

 

Correlações

 

Tendo selecionado a variável objetiva e a técnica que iremos utilizar. O próximo passo é verificar as correlações entre as variáveis.

 

Esta etapa é onde podemos eliminar variáveis que não fornecem informações suficientes para prever nosso objetivo, ou que são muito semelhantes na forma como influenciam o resultado, portanto, entendê-las individualmente é muito difícil.

 

 

Matriz de correlação

 

Aqui ele nos mostra a matriz de correlação tradicional. O ruim desse gráfico é que, se tivermos um grande número de colunas, fica difícil visualizar facilmente todas as correlações.

 

 

Garabujo7_2-1659734980902.png

 

 

Para simplificar, a plataforma nos dá duas opções, selecionar 2 variáveis individualmente e analisá-las.

 

 

 

Garabujo7_3-1659734980904.png

 

 

Assim, podemos revisar a correlação entre duas variáveis com mais detalhes.

 

 

Diagrama de Cordas

 

A outra forma de visualizar as correlações é através do diagrama de acordes, que permite visualizar as relações com mais facilidade, mesmo que sejam várias variáveis.

 

Garabujo7_4-1659734980909.png

 

 

O interessante é que podemos ajustar o limites de correlação para focar apenas nas variáveis que possuem a maior correlação.

 

 

Garabujo7_5-1659734980910.png

 

 

 

Assim, podemos analisar as variáveis que possuem alta correlação de forma simples, independente do seu número.

 

 

Valores Atípicos

 

Valores fora do intervalo ou discrepantes podem influenciar negativamente os resultados do nosso modelo e normalmente exigem análises adicionais para serem entendidos.

 

A plataforma permite que os outliers sejam removidos, porém, dependendo da decisão do analista, podemos manter todos os outliers e a plataforma irá tratá-los adequadamente automaticamente.

 

 

Garabujo7_6-1659734980917.png

 

 

 

Variável Objetivo

 

Uma vez selecionada a variável alvo, podemos analisar sua distribuição para identificar se ela está desbalanceada ou balanceada para o modelo.

 

Nesse caso, nossa variável de destino tem uma distribuição aceitável.

 

 

Garabujo7_7-1659734980919.png

 

 

Caso a variável estivesse desequilibrada, uma categoria com maior número de valores que a outra. A plataforma aplicará as técnicas adequadas para aproveitá-las ao máximo na criação dos modelos.

 

Veremos esses detalhes mais tarde quando o pipeline de cada modelo for criado.

 

 

Treinamento do Modelo

 

É aqui que selecionamos os parâmetros que serão usados para treinar os modelos de aprendizado de máquina.

 

 

Garabujo7_8-1659734980922.png

 

 

 

A primeira é escolher a métrica que usaremos para avaliar os resultados.

 

 

Métricas para Avaliação do Modelo

 

Temos uma variedade de métricas disponíveis para usar a que melhor se adequa ao objetivo que procuramos. Os modelos que a plataforma irá recomendar serão influenciados pela métrica selecionada, diferentes métricas podem ter diferentes modelos recomendados.

 

As oito métricas disponíveis são:

 

 

Garabujo7_9-1659734980924.png

 

 

 

Pesquisa de Modelo

 

Para controlar a duração do treinamento do modelo, podemos limitar o tempo necessário para criar novos pipelines para cada modelo selecionado.

 

 

Garabujo7_10-1659734980925.png

 

 

Para garantir que os modelos forneçam os melhores resultados na produção, podemos selecionar o número de K-Folds que usaremos para validação cruzada. Por padrão, a plataforma recomenda 3.

 

 

Montagens do Modelo

 

 

Montagens são combinações de modelos que podem gerar melhores resultados, para isso, podemos selecionar a seguinte opção:

 

 

Garabujo7_11-1659734980925.png

 

 

 

Holdout

 

A última é a porcentagem de dados que reservaremos para a avaliação do modelo final.

 

 

Garabujo7_12-1659734980925.png

 

 

O número recomendado pela plataforma é de 20%.

 

 

Engenharia de Recursos

 

Quando desenvolvemos modelos de aprendizado de máquina, outro dos processos fundamentais para obter bons resultados é a Engenharia de Recursos.

 

A engenharia de recursos refere-se à criação de novas variáveis que não existiam no conjunto de dados original. Este processo é de tentativa e erro para encontrar as melhores características ou variáveis que nos ajudem a melhorar os resultados.

 

Um exemplo de criação de novas variáveis é o cálculo da idade dos clientes quando temos apenas a data de nascimento. A idade não existia e nós a criamos porque fornece mais informações para o modelo.

 

Aqui a plataforma automatiza totalmente o processo de criação de novas variáveis por meio de Primitivas, que são fórmulas que são aplicadas a variáveis existentes, que depois serão usadas para treinar os modelos, pegando as que forem úteis para o objetivo e descartando aqueles que não agregam valor ao processo.

 

A lista de Primitivos disponíveis é 38, e entre eles temos, por exemplo, o logaritmo natural que podemos aplicar para transformar números.

 

 

Garabujo7_13-1659734980929.png

 

 

 

Conclusão

 

 

Nesta segunda parte revisamos a configuração e criação da plataforma.

 

  • Seleção de Variável Objetivo
  • Métodos de Aprendizado de Máquina
  • Correlações
  • Valores Atípicos
  • Variável Objetivo
  • Treinamento do Modelo
  • Métricas para Avaliação de Modelos
  • Engenharia de Recursos

 

Na terceira e última revisaremos a parte dos resultados dos modelos:

 

  • Automodelagem
  • Avaliação dos Modelos
  • Exportação e Qualificação

 

Rótulos