Blog

Garabujo7 · ‎08-10-2022

Na primeira parte desta série falamos sobre:

Obtenha os dados
Integração com Alteryx Designer
Dados de preparação
Saúde dos dados
Descobertas nos Dados

Nesta segunda parte de três, falaremos sobre como configurar a plataforma para criar os modelos preditivos. Começando com:

Seleção da variável objetivo

É aqui que escolhemos a variável que queremos prever, esse é o resultado que esperamos obter com nossos modelos de aprendizado de máquina.

Neste exemplo, a variável de destino será o status da reserva. É uma variável categórica, pois possui 2 valores ou categorias que estamos interessados em prever.

Cancelado e não cancelado. O objetivo de criar este modelo preditivo será prever as reservas que podem ser canceladas e aquelas que não serão.

Outro detalhe a ter em conta será saber os motivos pelos quais algumas reservas são canceladas e outras permanecem, o que é muito importante para a saúde do negócio.

A próxima opção que devemos selecionar é o método de aprendizado de máquina que aplicaremos.

Temos 3 possibilidades:

Classificação
Regressão
Regressão de séries temporais

Classificação

Será útil para nós atribuir uma categoria a cada reserva. As opções podem ser 2 ou mais.

No nosso caso, será o status da reserva e tem 2 possibilidades: Cancelada e Não Cancelada.

Outra forma de olhar é: qual é o objetivo da nossa análise, saber quais são as características das reservas que serão canceladas.

Desta forma poderemos antecipar e tomar medidas para reduzir os cancelamentos, reduzir o custo das reservas canceladas e garantir que a maioria das reservas se mantém ao longo do tempo.

Regressão

Quando nosso objetivo é prever um número ou quantidade, aplicamos uma técnica de regressão que nos permitirá ver qual é o número mais provável que obteremos, bem como as causas que o geram.

Neste exemplo pode ser o custo do bilhete ou o número de hóspedes que o hotel irá receber.

Regressão de Séries Temporais

A terceira técnica que a plataforma possui nos dá a possibilidade de prever o número de pessoas que ficarão nos próximos 6 meses, por exemplo. Isso projetará os resultados ao longo do tempo para entender como eles se comportarão, vinculados aos períodos seguintes.

Correlações

Tendo selecionado a variável objetiva e a técnica que iremos utilizar. O próximo passo é verificar as correlações entre as variáveis.

Esta etapa é onde podemos eliminar variáveis que não fornecem informações suficientes para prever nosso objetivo, ou que são muito semelhantes na forma como influenciam o resultado, portanto, entendê-las individualmente é muito difícil.

Matriz de correlação

Aqui ele nos mostra a matriz de correlação tradicional. O ruim desse gráfico é que, se tivermos um grande número de colunas, fica difícil visualizar facilmente todas as correlações.

Para simplificar, a plataforma nos dá duas opções, selecionar 2 variáveis individualmente e analisá-las.

Assim, podemos revisar a correlação entre duas variáveis com mais detalhes.

Diagrama de Cordas

A outra forma de visualizar as correlações é através do diagrama de acordes, que permite visualizar as relações com mais facilidade, mesmo que sejam várias variáveis.

O interessante é que podemos ajustar o limites de correlação para focar apenas nas variáveis que possuem a maior correlação.

Assim, podemos analisar as variáveis que possuem alta correlação de forma simples, independente do seu número.

Valores Atípicos

Valores fora do intervalo ou discrepantes podem influenciar negativamente os resultados do nosso modelo e normalmente exigem análises adicionais para serem entendidos.

A plataforma permite que os outliers sejam removidos, porém, dependendo da decisão do analista, podemos manter todos os outliers e a plataforma irá tratá-los adequadamente automaticamente.

Variável Objetivo

Uma vez selecionada a variável alvo, podemos analisar sua distribuição para identificar se ela está desbalanceada ou balanceada para o modelo.

Nesse caso, nossa variável de destino tem uma distribuição aceitável.

Caso a variável estivesse desequilibrada, uma categoria com maior número de valores que a outra. A plataforma aplicará as técnicas adequadas para aproveitá-las ao máximo na criação dos modelos.

Veremos esses detalhes mais tarde quando o pipeline de cada modelo for criado.

Treinamento do Modelo

É aqui que selecionamos os parâmetros que serão usados para treinar os modelos de aprendizado de máquina.

A primeira é escolher a métrica que usaremos para avaliar os resultados.

Métricas para Avaliação do Modelo

Temos uma variedade de métricas disponíveis para usar a que melhor se adequa ao objetivo que procuramos. Os modelos que a plataforma irá recomendar serão influenciados pela métrica selecionada, diferentes métricas podem ter diferentes modelos recomendados.

As oito métricas disponíveis são:

Pesquisa de Modelo

Para controlar a duração do treinamento do modelo, podemos limitar o tempo necessário para criar novos pipelines para cada modelo selecionado.

Para garantir que os modelos forneçam os melhores resultados na produção, podemos selecionar o número de K-Folds que usaremos para validação cruzada. Por padrão, a plataforma recomenda 3.

Montagens do Modelo

Montagens são combinações de modelos que podem gerar melhores resultados, para isso, podemos selecionar a seguinte opção:

Holdout

A última é a porcentagem de dados que reservaremos para a avaliação do modelo final.

O número recomendado pela plataforma é de 20%.

Engenharia de Recursos

Quando desenvolvemos modelos de aprendizado de máquina, outro dos processos fundamentais para obter bons resultados é a Engenharia de Recursos.

A engenharia de recursos refere-se à criação de novas variáveis que não existiam no conjunto de dados original. Este processo é de tentativa e erro para encontrar as melhores características ou variáveis que nos ajudem a melhorar os resultados.

Um exemplo de criação de novas variáveis é o cálculo da idade dos clientes quando temos apenas a data de nascimento. A idade não existia e nós a criamos porque fornece mais informações para o modelo.

Aqui a plataforma automatiza totalmente o processo de criação de novas variáveis por meio de Primitivas, que são fórmulas que são aplicadas a variáveis existentes, que depois serão usadas para treinar os modelos, pegando as que forem úteis para o objetivo e descartando aqueles que não agregam valor ao processo.

A lista de Primitivos disponíveis é 38, e entre eles temos, por exemplo, o logaritmo natural que podemos aplicar para transformar números.

Conclusão

Nesta segunda parte revisamos a configuração e criação da plataforma.

Seleção de Variável Objetivo
Métodos de Aprendizado de Máquina
Correlações
Valores Atípicos
Variável Objetivo
Treinamento do Modelo
Métricas para Avaliação de Modelos
Engenharia de Recursos

Na terceira e última revisaremos a parte dos resultados dos modelos:

Automodelagem
Avaliação dos Modelos
Exportação e Qualificação