Free Trial

Blog

Insights e ideias das mentes mais brilhantes em análise de dados.
Garabujo7
Alteryx
Alteryx

Esta é a primeira parte de uma série de três artigos em que revisarei a plataforma Alteryx Machine Learning na nuvem.


Vou começar com:

Democratização do Analytics

 

A democratização do analytics ou o que nós da Alteryx definimos como: Analytics para todos, significa que qualquer pessoa, independentemente da área em que atua ou mesmo que sua formação profissional não esteja alinhada com tecnologia ou ciência de dados, pode usufruir dos benefícios de análise e automação de processos.

 

Como vemos no gráfico a seguir do @Datavizzdom, as atividades de um cientista de dados vão além da criação de modelos preditivos, e é nessas outras tarefas (limpeza e exploração de dados) que consomem a maior parte do tempo, que a plataforma do Alteryx brilha.

 

 

Garabujo7_0-1659733677967.png

 

 

 

É por isso que a plataforma Alteryx oferece soluções focadas em autoatendimento e produtividade, removemos a complexidade, sistemas fechados e proprietários para facilitar para qualquer pessoa que tenha uma pergunta de negócios a responder, poder fazê-lo sem precisar se tornar um especialista em análise nem sistemas.

 

A ideia é que os usuários possam resolver mais rapidamente os desafios de negócios que enfrentam diariamente de forma independente e com uma plataforma fácil de usar, replicável e poderosa.

 

Assim, eles aproveitam a experiência que têm no negócio sem gastar muito tempo aprendendo uma nova tecnologia ou linguagem de programação, enquanto começam a melhorar seus processos, descobrem novos insights relevantes e tomam melhores decisões com base em dados.

 

Dentro de todas as possibilidades que o Alteryx oferece, desta vez vou focar na parte de Machine Learning.

 

Alteryx Machine Learning

 

No Alteryx é possível criar modelos preditivos de diversas formas, a principal diferença entre elas é o nível de automação e as opções disponíveis para a criação dos modelos.

 

Primeiro temos as ferramentas de paleta preditiva, para as quais precisamos preparar os dados, investigá-los e selecionar as variáveis preditoras apropriadas manualmente, sem assistentes para nos dar sugestões.

 

 

Garabujo7_1-1659733677970.png

 

 

Em seguida, temos o complemento Intelligence Suite que apresenta modelagem assistida, que nos guia por todo o processo após selecionar a variável de destino.

 

Se você quiser ver mais detalhes sobre essa funcionalidade, pode ler este artigo que escrevi há algum tempo.

 

 

Garabujo7_2-1659733677972.png

 

 

O terceiro, e sobre o qual falarei neste artigo, é o Alteryx Machine Learning, uma plataforma em nuvem que permite criar e avaliar modelos preditivos com facilidade e focar mais nos resultados e sua aplicação de negócios do que em se preocupar com todo o processo de criação, implementação e ajuste do modelo.

 

O início: obtenha os dados

 

Uma parte substancial do trabalho de criação de um modelo preditivo é consumida na preparação dos dados.

Este processo inclui entre outros:

 

  1. Acesso a dados de várias fontes, arquivos e aplicativos
  2. Limpe-os, padronize-os
  3. Formate-os
  4. Junte-se a eles (não é necessário saber SQL)

 

É aqui que nossa plataforma começa a mostrar seu potencial e capacidade de fazer tudo em uma única solução.

 

Não vou entrar em detalhes do conhecido Alteryx Designer e seus recursos. Destaco apenas sua integração para que possamos utilizar qualquer tipo de dado na plataforma Alteryx Machine Learning.

 

 

Integração com o Alteryx Designer

 

Depois de preparar os dados no Alteryx Designer, para carregá-los na plataforma Alteryx Machine Learning, precisamos de uma entrada de dados.

 

Para este exemplo, usarei dados de demanda para reservas de hotéis. O objetivo será prever quais reservas serão canceladas e quais ações podemos tomar para preveni-las ou antecipá-las a fim de mitigar o risco de perdas econômicas para o hotel e planejar melhor a demanda dos clientes.

 

Com a ferramenta Machine Learning Send (incluída), carregamos rapidamente os dados para a plataforma.

 

 

Garabujo7_3-1659733677973.png

 

 

A Plataforma de aprendizado de máquina Alteryx

 

A solução é voltada para a produtividade dos cidadãos cientistas de dados.

 

A maior parte do processo é orientada por assistentes para simplificar muitas das tarefas iterativas e repetitivas que precisamos realizar para criar um bom modelo preditivo.

 

Como sabemos, a modelagem preditiva é um processo que combina arte e ciência. Decisões de quem cria o modelo, aliadas à experiência no negócio e conhecimento de modelos e técnicas estatísticas. É por isso que o desenvolvimento pode demorar muito e se tornar enormemente complicado.

 

Em vez disso, o que a plataforma Alteryx oferece é automatizar essa parte do processo, selecionando apenas alguns parâmetros e deixando mais tempo para analisar os resultados, entendê-los, justificá-los, aplicá-los ao negócio e, muito importante, poder explicá-los ao resto do povo.

 

O desenvolvimento do modelo é dividido em 5 etapas:

 

  1. Preparação de dados
  2. Descobertas nos dados
  3. Automodelagem
  4. Avaliação do modelo
  5. Exportação e pontuação

 

Voltando ao resto da plataforma agregaria um sexto passo, implementando o modelo em produção, seja através da interface web ou exponho uma API Rest para ser consumida por terceiros.

Ajuda contextual

 

Antes de entrar no assunto, uma parte importante, ajuda.

 

Ao longo do processo, a plataforma oferece-nos ajuda contextual que podemos consultar facilmente para compreender qualquer passo que estejamos a dar.

 

Por exemplo, ao configurar o auto-model, podemos clicar no ponto de exclamação e ele nos mostra a explicação da etapa que queremos selecionar junto com uma recomendação de uso.

 

 

Garabujo7_4-1659733677974.png

 

 

Além disso, se clicarmos no livrinho que está na parte superior direita da tela, podemos acessar o modo de educação.

 

Lá podemos encontrar explicações de todos os elementos da plataforma.

 

Com essa funcionalidade poderemos entender o que a solução faz, e caso não conheçamos as métricas e processos que ela realiza, será útil aprender mais sobre ciência de dados enquanto criamos modelos preditivos para solucionar nossos desafios de negócios.

 

 

Garabujo7_5-1659733677980.png

 

 

 

A vantagem é que, se não usarmos esse recurso, podemos desativá-lo a qualquer momento.

 

Prep Data

 

Mencionei no início que parte da preparação dos dados pode ser feita no Designer, principalmente a criação da tabela base sobre a qual construiremos o modelo. Na AML podemos explorar os dados para melhor entendê-los antes de criar os modelos preditivos.

 

 

 

Garabujo7_6-1659733677982.png

 

 

 

Primeiro temos os dados, com a opção de visualizar o perfil, tipo de dados, número de linhas e colunas, bem como a qualidade geral dos dados.

 

 

 

Garabujo7_7-1659733677991.png

 

 

Se encontrarmos um erro, a plataforma nos notifica e podemos corrigi-lo. Por exemplo, temos o campo ID, que não é útil para construir o modelo preditivo.

 

Por isso, ele nos mostra uma mensagem e, se clicarmos em ver detalhes, podemos revisá-los na parte inferior da tela.

Aqui mostra-nos a descoberta e a ação recomendada a tomar.

 

 

Garabujo7_8-1659733677993.png

 

 

Ao clicar em corrigir os dados, selecionamos a coluna que queremos limpar e aparece a opção de descartá-la de nossa análise.

 

 

 

Garabujo7_9-1659733677995.png

 

Garabujo7_10-1659733677997.png

 

 

Integridade dos Dados

 

Depois de explorar nosso conjunto de dados, podemos revisar sua saúde. Concentre-se em valores ausentes em linhas, colunas e valores discrepantes.

 

Esse conjunto de dados, por exemplo, não possui valores ausentes em linhas ou colunas.

 

No entanto, onde temos espaço para melhorias é na distribuição por coluna e nos 83% de colunas que possuem valores discrepantes ou fora do intervalo. Por causa disso, a integridade dos dados é classificada como C.

 

 

Garabujo7_11-1659733678006.png

 

 

Esta informação é útil porque a distribuição e os outliers podem afetar negativamente a saída do nosso modelo.

 

Estas fazem parte das tarefas em que temos que decidir e fazer uma infinidade de testes para obter bons resultados de nossos modelos, o bom é que a plataforma Alteryx AML faz essa parte por nós automaticamente para fazer o melhor uso dos dados que temos.

 

 

 

ricky ricon.gif

 

Conclusão

 

Nesta primeira parte revisamos o início do processo de criação de um modelo de aprendizado de máquina.

 

  • Obtenha os Dados
  • Integração com Alteryx Designer
  • Preparar Dados
  • Saúde dos Dados
  • Descobertas nos Dados

 

Na próxima parte veremos:

 

  • Seleção de Variável Objetivo
  • Métodos de Aprendizado de Máquina
  • Correlações
  • Valores Atípicos
  • Variável Objetivo
  • Treinamento Modelo
  • Métricas para Avaliação de Modelos
  • Engenharia de recursos


Não perca a segunda parte desta série.

 

Rótulos