Free Trial

Blog

Insights e ideias das mentes mais brilhantes em análise de dados.
Garabujo7
Alteryx
Alteryx

credit to giphy.comcredit to giphy.com

 

 

Se você é como eu e nunca fez um modelo analítico ou não tem tempo suficiente para se dedicar ao aprendizado de estatística, ciência de dados, programação, bancos de dados, SQL ... mas conhece o negócio e tem perguntas que gostaria de responder e ainda não conseguiu, ou ainda depende de outras áreas/profissionais para fazer isso, este artigo lhe interessa.

 

credit to giphy.comcredit to giphy.com

 

 

O cidadão cientista de dados

Antes de tudo, precisamos falar sobre um novo papel estabelecido pelo Gartner, o cidadão cientista de dados que agrega valor ao processo de análise e é capaz de simplificá-lo usando modelos analíticos para diagnósticos avançados ou com recursos preditivos e prescritivos, mas não possui formação acadêmica e sua função não está relacionada ao campo de estatística, análise, tecnologia ou banco de dados.

Portanto, a modelagem assistida é a plataforma por excelência para o cidadão cientista de dados, pois permite que você desenvolva as análises necessárias sem o treinamento necessário em ciência de dados ou estatística avançada, é bastante orientado a responder às perguntas diárias do negócio rapidamente e com o grande valor agregado do treinamento ao mesmo tempo.

 

 
 

AM PT 1.png

 

 

A modelagem assistida explica e define cada uma das etapas necessárias para que fique claro o que está fazendo e as razões pelas quais essas decisões foram tomadas, dando-nos a oportunidade de fazer as seleções manualmente, se não concordarmos com isso que ele recomenda, personalizando ainda mais o modelo.

 

 

am pt 2.png

 

 

Aqui está um exemplo de uma explicação da plataforma para modelagem assistida.

 

 

am pt 3.png

 

 

Vemos que isso não apenas nos dá recomendações, mas também as explica e nos permite decidir se a toma ou não mais flexível.

 

Metodologia CRISP-DM

Para referência, a plataforma de Modelagem Assistida é baseada na metodologia CRISP-DM (Processo Padrão da Indústria para Mineração de Dados) que inclui 5 etapas que devem ser seguidas em projetos de análise de dados de qualquer setor para criar um processo sistemático e repetitivo.

 

 

AM 5.png

 

 

Modelagem Assistida vs Modelagem Automática

Existem duas filosofias sobre o desenvolvimento de modelos usando o aprendizado de máquina. Uma proposta pela Alteryx: modelagem assistida e a outra modelagem automática e, como tudo na vida, cada uma com seus prós e contras onde a escolha depende de vários fatores que mostramos aqui em uma comparação de ambos os produtos:

 

  • Modelagem automática: construção totalmente automatizada de um modelo preditivo. O usuário seleciona um conjunto de dados, escolhe a variável que deseja prever e o modelo automático retorna a melhor resposta que pode encontrar.

  • Modelagem assistida: um processo de modelagem transparente que permite ao usuário controlar as principais decisões ao criar um modelo preditivo. O usuário segue as etapas predefinidas para criar um modelo corretamente. A plataforma também o guia no processo para que o usuário entenda as etapas e decisões.

 

am pt 4.png

 

 

Este é um guia de referência. No final, a melhor maneira de tomar uma decisão é usar a plataforma para ver se é o que você precisa.

Baixe uma versão de teste agora mesmo.

 

Bem-vindo à modelagem assistida

Como parte da nova versão 2020.2 do Alteryx, a modelagem assistida é uma nova categoria de blocos analíticos na categoria de aprendizado de máquina que faz parte do plug-in do Intelligence Suite e inclui uma categoria de Mineração de Texto sobre a qual falarei em outro artigo.

 

 

AM PT 5.png

 

 

  

Como posso usá-la?

Como componente adicional, é necessário uma licença para usá-la.

 

Se você baixar o Alteryx versão 2020.2, os blocos analíticos de aprendizado de máquina e de mineração de texto aparecerão com um cadeado próximo a eles e não serão utilizáveis.

 

 

am pt 6.png

 

Se você já possui sua licença do Intelligence Suite, pode ativá-la para começar a usar. Se tiver dúvidas sobre como fazer isso, consulte este artigo: Instalar e configurar o Alteryx Designer.

 

A boa notícia é que o Intelligence Suite também possui uma versão de teste. Para começar, você precisa de dados.

am pt 7.png

 

Neste artigo, usarei um conjunto de amostras que inclui dados de clientes de uma empresa de telecomunicações. A próxima etapa é colocar o bloco analítico da Modelagem Assistida, encontrado na guia de aprendizado de máquina.

am pt 8.png

 

am pt 9.png

 

 

Para iniciar a modelagem assistida, clique em Executar ou com o atalho CTRL -> R

 

 

am pt 10.png

 

Clique em Iniciar Modelagem Assistida.

 

 

am pt 11.png

 

 

Na tela inicial haverá uma explicação do processo para criar o modelo e o passo a passo de cada estágio. 

 

 

 

am pt 12.png

 

 

Etapa 1: selecione a variável de destino

 

Selecione Iniciar geração e nos leva à tela para selecionar a variável de destino, o que queremos prever.

 

am pt 13.png

 

 

O interessante da modelagem assistida é que, ao selecionar a variável de destino, ela mostra uma explicação do tipo de variável e exemplos do que pode ser feito com esse tipo de dados. Para selecionar a variável que queremos prever, podemos nos perguntar o que queremos responder com os dados. Depois, clique em Avançar.

 

Ao selecionar o campo de destino, você escolhe automaticamente o tipo de método de aprendizado de máquina que fornece exemplos onde você pode aplicar.

 

am pt 14.png

 

Nesse caso, o que queremos prever é uma classificação, o modelo fará a previsão de acordo com as categorias disponíveis, que neste caso são duas, binárias ou podem ser mais, altas, baixas e médias.

 

Clicamos em Avançar para ir para a próxima etapa.

 

Etapa 2: configurar tipos de dados

Nesta etapa, a correta será atribuída aos dados do conjunto que usaremos para modelar.

 

 

am pt 15.png

 

De acordo com o conteúdo, a Modelagem Assistida recomendará que descartemos alguns ou alteremos o tipo, como no caso dos campos que são IDs, pois eles não fornecem informações para a previsão. 


Analise o conteúdo da coluna.

 

 

am pt 16.png

 

 

Recomende uma ação a ser tomada.

 

 

am pt 17.png

 

 

Aqui é explicado o porquê do descarte.

 

 

am pt 18.png

 

 

Selecionamos o próximo para ir para a etapa 3.

 

 

Etapa 3: limpar valores ausentes

 

Campos com valores nulos ou vazios criam problemas para criar modelos analíticos. Como parte do processo, a Modelagem Assistida aconselha estratégias de imputação para limitar o impacto desses dados nos resultados do modelo.

am pt 19.png

 

 

Imputar significa atribuir valores a um campo vazio ou nulo. Para fazer isso, a variável pode ser completamente descartada se não fornecer informações ou tiver muito poucos valores ou alterá-la para a mediana, modo ou média do restante dos valores. Dessa forma, podemos tirar proveito dos campos que possuem informações incompletas.

 

 

am pt 20.png

 

 

Clicamos em Avançar para continuar o processo.

 

Etapa 4: selecionar recursos

 

Das variáveis que o modelo possui, podemos escolher aquelas que têm maior associação com o que procuramos prever, para que o resultado seja mais preciso.

 

 

am pt 21.png

 

 

 

Nesse caso, indica que uma variável está muito fraca associada ao objetivo - de acordo com a análise de Gino e GKT.

 

 

am pt 22.png

 

 

E a explicação das técnicas usadas para avaliar os detalhes do preditor. Preditores são as variáveis que nos ajudarão a prever o objetivo.

 

 

am pt 23.png

 

 

Clicamos em Avançar para continuar.

 

Etapa 5: selecionar algoritmos

 

A última etapa nos permite selecionar os algoritmos que queremos usar para previsão, em conformidade com o teorema da ciência de dados que diz "não há almoço grátis", nenhum algoritmo é perfeito para todos os casos, é preciso tentar diferentes alternativas para obter os melhores resultados que se adaptam aos dados e à situação específica.

 

 

am pt 24.png

 

 

Para variáveis categóricas, temos quatro algoritmos disponíveis:

  • Regressão logística
  • Árvore de decisão
  • Floresta aleatória
  • XGBoost

 

Se for uma variável contínua (numérica), temos três algoritmos à disposição:

  • Regressão linear
  • Árvore de decisão
  • Floresta aleatória

 

Cada um tem sua definição, vantagens, desvantagens e casos práticos onde é aplicado.

 

 

 

am pt 25.png

 

 

Clicamos em Executar os algoritmos selecionados para treiná-los.

 

Comparação de modelos

Concluído o treinamento dos modelos selecionados, a Modelagem Assistida apresenta os resultados globais e individuais, juntamente com uma explicação das métricas e uma recomendação do melhor modelo, de acordo com sua precisão e tempo de processamento.

 

 

am pt 26.png

 

Nesse caso, a plataforma recomenda que o melhor modelo seja o XGBoost com uma precisão de 80% e um tempo de processamento de 13 segundos.

 

Também podemos avaliar as matrizes de confusão que explicam a capacidade do modelo de prever cada opção, o que é importante, dependendo do caso de uso que estamos analisando.

 

 

am pt 27.png

 

 

A importância das variáveis é outra característica que é apresentada.

 

 

am pt 28.png

 

 

Isso nos diz quais variáveis, de acordo com cada modelo, são mais importantes para prever a variável alvo, o que é importantes para focar nas variáveis mais relevantes e gerar ações focadas que podem ter o maior impacto.

 

Você é um desenvolvedor e prefere escrever seu código manualmente porque permite ter mais controle? Não tem problema, a Modelagem Assistida está aqui para ajudá-lo, você pode criar protótipos ou rascunhos dos modelos necessários e exportá-los para Python para criar a base do seu modelo sem esforço com apenas alguns cliques.

 

Selecione Exportar modelo para Python.

 

 

am pt 29.png

 

 

E agora você pode ver o modelo no código Python no Alteryx Designer para começar a usá-lo imediatamente. Para finalizar o processo, selecione o modelo escolhido e clique em Adicionar modelos e continue com o fluxo de trabalho.

 

 

 

am pt 30.png

 

 

Isso cria um fluxo de trabalho completo que você pode usar para qualificar seus dados, em lote com o Designer, o Alteryx Server ou integrado em outro sistema usando a API Rest do Altyeryx Server e até implementá-lo para se qualificar em tempo real usando o Alteryx Promote.

 

 

am pt 31.png

 

 

Isso mostra todo o processo do modelo no código Python no Notebook Jupyter incluído no bloco analítico Python no Alteryx Designer.

 

 

am pt 32.png

 

 

am pt 33.png

 

 

Previsões

Para fazer previsões após o treinamento do modelo, podemos conectar o novo conjunto de dados ao bloco de previsão analítica para atribuir uma probabilidade de desistência a cada registro.

 

 

 

am pt 34.png

 

 

Mesmo após a conclusão do modelo, podemos modificar os parâmetros para refiná-lo ainda mais, dando grande flexibilidade ao processo.

 

 

am pt 35.png

 

 

E sem esquecer que as explicações continuam em cada parâmetro que você seleciona.

 

 

am pt 36.png

 

 

Justifique decisões através da auto-documentação

Você já criou seu primeiro modelo analítico, não é especialista nisso, como pode justificar os resultados ou explicá-los acima de tudo aos especialistas em ciência de dados?

 

gif retrieved from giphy.comgif retrieved from giphy.com

 

 

Não se preocupe, a Modelagem Assistida está aqui para ajudá-lo.

Ao mesmo tempo em que o assistente estava nos mostrando o que ele faria em cada estágio, no final do processo, ele criou o fluxo analítico ou o pipeline analítico com todas as etapas e decisões que tomamos para poder mostrá-lo e justificar o trabalho tanto quanto com os especialistas quanto com potenciais auditores e revisores de qualidade, que precisam verificar como as decisões estão sendo tomadas.

 

 

 

am pt 31.png

 

 

O fluxo inclui todas as etapas e podemos revisá-las e até modificá-las, se necessário.

 

Como mostrado anteriormente, a mesma variável 'ServicioTelefono' que foi descartada está aqui no fluxo para ser revisada. 

 

 

am pt 37.png

 

 

Além disso, se você quiser discutir os resultados com mais pessoas ou em outro contexto, pode exportar os relatórios de resultados em HTML e levá-los consigo para essa reunião importante.

 

am pt 38.png

 

 

Essa é a verdadeira inteligência aumentada, a capacidade de aproveitar a experiência e aproveitar o potencial do aprendizado de máquina.

 

O que realmente lhe dá poder...

 

Tomado de GiphyTomado de Giphy

 

E a emoção de resolver com o Alteryx.

 

Comentários
educeliaBR
Alteryx Alumni (Retired)

Great post Gabriel! 

Rótulos