Esta é a primeira parte de uma série de três artigos em que revisarei a plataforma Alteryx Machine Learning na nuvem.
Vou começar com:
A democratização do analytics ou o que nós da Alteryx definimos como: Analytics para todos, significa que qualquer pessoa, independentemente da área em que atua ou mesmo que sua formação profissional não esteja alinhada com tecnologia ou ciência de dados, pode usufruir dos benefícios de análise e automação de processos.
Como vemos no gráfico a seguir do @Datavizzdom, as atividades de um cientista de dados vão além da criação de modelos preditivos, e é nessas outras tarefas (limpeza e exploração de dados) que consomem a maior parte do tempo, que a plataforma do Alteryx brilha.
É por isso que a plataforma Alteryx oferece soluções focadas em autoatendimento e produtividade, removemos a complexidade, sistemas fechados e proprietários para facilitar para qualquer pessoa que tenha uma pergunta de negócios a responder, poder fazê-lo sem precisar se tornar um especialista em análise nem sistemas.
A ideia é que os usuários possam resolver mais rapidamente os desafios de negócios que enfrentam diariamente de forma independente e com uma plataforma fácil de usar, replicável e poderosa.
Assim, eles aproveitam a experiência que têm no negócio sem gastar muito tempo aprendendo uma nova tecnologia ou linguagem de programação, enquanto começam a melhorar seus processos, descobrem novos insights relevantes e tomam melhores decisões com base em dados.
Dentro de todas as possibilidades que o Alteryx oferece, desta vez vou focar na parte de Machine Learning.
No Alteryx é possível criar modelos preditivos de diversas formas, a principal diferença entre elas é o nível de automação e as opções disponíveis para a criação dos modelos.
Primeiro temos as ferramentas de paleta preditiva, para as quais precisamos preparar os dados, investigá-los e selecionar as variáveis preditoras apropriadas manualmente, sem assistentes para nos dar sugestões.
Em seguida, temos o complemento Intelligence Suite que apresenta modelagem assistida, que nos guia por todo o processo após selecionar a variável de destino.
Se você quiser ver mais detalhes sobre essa funcionalidade, pode ler este artigo que escrevi há algum tempo.
O terceiro, e sobre o qual falarei neste artigo, é o Alteryx Machine Learning, uma plataforma em nuvem que permite criar e avaliar modelos preditivos com facilidade e focar mais nos resultados e sua aplicação de negócios do que em se preocupar com todo o processo de criação, implementação e ajuste do modelo.
Uma parte substancial do trabalho de criação de um modelo preditivo é consumida na preparação dos dados.
Este processo inclui entre outros:
É aqui que nossa plataforma começa a mostrar seu potencial e capacidade de fazer tudo em uma única solução.
Não vou entrar em detalhes do conhecido Alteryx Designer e seus recursos. Destaco apenas sua integração para que possamos utilizar qualquer tipo de dado na plataforma Alteryx Machine Learning.
Depois de preparar os dados no Alteryx Designer, para carregá-los na plataforma Alteryx Machine Learning, precisamos de uma entrada de dados.
Para este exemplo, usarei dados de demanda para reservas de hotéis. O objetivo será prever quais reservas serão canceladas e quais ações podemos tomar para preveni-las ou antecipá-las a fim de mitigar o risco de perdas econômicas para o hotel e planejar melhor a demanda dos clientes.
Com a ferramenta Machine Learning Send (incluída), carregamos rapidamente os dados para a plataforma.
A solução é voltada para a produtividade dos cidadãos cientistas de dados.
A maior parte do processo é orientada por assistentes para simplificar muitas das tarefas iterativas e repetitivas que precisamos realizar para criar um bom modelo preditivo.
Como sabemos, a modelagem preditiva é um processo que combina arte e ciência. Decisões de quem cria o modelo, aliadas à experiência no negócio e conhecimento de modelos e técnicas estatísticas. É por isso que o desenvolvimento pode demorar muito e se tornar enormemente complicado.
Em vez disso, o que a plataforma Alteryx oferece é automatizar essa parte do processo, selecionando apenas alguns parâmetros e deixando mais tempo para analisar os resultados, entendê-los, justificá-los, aplicá-los ao negócio e, muito importante, poder explicá-los ao resto do povo.
O desenvolvimento do modelo é dividido em 5 etapas:
Voltando ao resto da plataforma agregaria um sexto passo, implementando o modelo em produção, seja através da interface web ou exponho uma API Rest para ser consumida por terceiros.
Antes de entrar no assunto, uma parte importante, ajuda.
Ao longo do processo, a plataforma oferece-nos ajuda contextual que podemos consultar facilmente para compreender qualquer passo que estejamos a dar.
Por exemplo, ao configurar o auto-model, podemos clicar no ponto de exclamação e ele nos mostra a explicação da etapa que queremos selecionar junto com uma recomendação de uso.
Além disso, se clicarmos no livrinho que está na parte superior direita da tela, podemos acessar o modo de educação.
Lá podemos encontrar explicações de todos os elementos da plataforma.
Com essa funcionalidade poderemos entender o que a solução faz, e caso não conheçamos as métricas e processos que ela realiza, será útil aprender mais sobre ciência de dados enquanto criamos modelos preditivos para solucionar nossos desafios de negócios.
A vantagem é que, se não usarmos esse recurso, podemos desativá-lo a qualquer momento.
Mencionei no início que parte da preparação dos dados pode ser feita no Designer, principalmente a criação da tabela base sobre a qual construiremos o modelo. Na AML podemos explorar os dados para melhor entendê-los antes de criar os modelos preditivos.
Primeiro temos os dados, com a opção de visualizar o perfil, tipo de dados, número de linhas e colunas, bem como a qualidade geral dos dados.
Se encontrarmos um erro, a plataforma nos notifica e podemos corrigi-lo. Por exemplo, temos o campo ID, que não é útil para construir o modelo preditivo.
Por isso, ele nos mostra uma mensagem e, se clicarmos em ver detalhes, podemos revisá-los na parte inferior da tela.
Aqui mostra-nos a descoberta e a ação recomendada a tomar.
Ao clicar em corrigir os dados, selecionamos a coluna que queremos limpar e aparece a opção de descartá-la de nossa análise.
Depois de explorar nosso conjunto de dados, podemos revisar sua saúde. Concentre-se em valores ausentes em linhas, colunas e valores discrepantes.
Esse conjunto de dados, por exemplo, não possui valores ausentes em linhas ou colunas.
No entanto, onde temos espaço para melhorias é na distribuição por coluna e nos 83% de colunas que possuem valores discrepantes ou fora do intervalo. Por causa disso, a integridade dos dados é classificada como C.
Esta informação é útil porque a distribuição e os outliers podem afetar negativamente a saída do nosso modelo.
Estas fazem parte das tarefas em que temos que decidir e fazer uma infinidade de testes para obter bons resultados de nossos modelos, o bom é que a plataforma Alteryx AML faz essa parte por nós automaticamente para fazer o melhor uso dos dados que temos.
Nesta primeira parte revisamos o início do processo de criação de um modelo de aprendizado de máquina.
Na próxima parte veremos:
Não perca a segunda parte desta série.
Você deve ser um usuário registrado para adicionar um comentário aqui. Se você já estiver registrado, faça logon. Se você ainda não estiver registrado, registre-se e faça logon.