Free Trial

Blog

Insights e ideias das mentes mais brilhantes em análise de dados.
FláviaB
Alteryx Community Team
Alteryx Community Team

Este artigo é uma reprodução do texto original escrito por @HwasuK na Comunidade em inglês

 

Temos o prazer de anunciar um novo e importante recurso de aprendizado de máquina automatizado no Alteryx Intelligence Suite na versão 2021.1: a engenharia de recursos. A engenharia de recursos automatizada promete ajudar as organizações a criar modelos de aprendizado de máquina de alta qualidade mais rapidamente, ao mesmo tempo que se concentra no valor comercial dos modelos.

 

A Engenharia de recursos é comumente definida como um processo de criação de novas colunas (ou “recursos”) a partir de dados brutos utilizando várias técnicas. Além disso, é amplamente aceita como um fator essencial para o sucesso nos projetos de ciência de dados. A criação de recursos significativos é um desafio que exige tempo e, muitas vezes, habilidades de programação. As novas funcionalidades de engenharia de recursos do Alteryx Intelligence Suite tornam esse processo fácil e rápido para analistas, cientistas de dados e também para usuários com pouca experiência.

 

Bora alterar a nossa jornada analítica com a engenharia de recursos!

 

Ao iniciar qualquer tipo de análise, a parte mais difícil costuma ser a aquisição das informações, que geralmente estão em fontes distintas e em sua forma bruta. Os analistas normalmente utilizam o Alteryx ou uma linguagem como SQL para agregar os dados e gerar campos para a análise.

 

Imagine que trabalhamos para um varejista, vendendo um conjunto definido de produtos:

 

FláviaB_0-1613674915968.png

 

 

Temos um conjunto de produtos adquiridos por um cliente em uma transação específica:

 

FláviaB_1-1613674915971.png

 

 

Também temos as datas de cada transação:

 

FláviaB_2-1613674915973.png

 

 

E temos as informações sobre todos os clientes em nossa base de dados:

 

FláviaB_3-1613674915973.png

 

 

Digamos que a gerência nos pergunte: “Quais clientes realizarão as maiores transações no próximo ano?”. Com o Alteryx Intelligence Suite, essa pergunta pode ser respondida por meio de algumas etapas simples. 

 

Para cada uma das tabelas brutas, primeiro precisamos definir o tipo de dados corretamente, otimizando os tamanhos de campo para a análise. Fazemos isso utilizando a ferramenta Campo Automático do Designer, em parceria com a nova ferramenta Tipos de Recurso do Alteryx Intelligence Suite.

 

 

FláviaB_4-1613674915978.png

 

 

A ferramenta Tipos de Recurso executa a “tipagem semântica dos dados”, que adiciona contexto real ao tipo de dados base. Por exemplo, um campo de CEP pode ser armazenado como um Número Inteiro, mas a tipagem semântica dos dados" pode mapeá-lo como CEP, aproveitando melhor o campo na engenharia de recursos.

No painel de configuração da ferramenta Tipos de Recurso, podemos utilizar a opção “Detecção automática” em Alterar Tipo. Isso instrui a ferramenta a analisar cada coluna e a tentar extrair automaticamente o que o campo realmente é. Podemos alterar manualmente o Tipo de Saída conforme necessário. Selecionar o tipo de saída (tipo semântico) de modo correto melhora a qualidade dos recursos que geramos na etapa seguinte.

 

 

FláviaB_5-1613674915980.png

 

 

Depois de configurar os tipos de dados, passamos todas as informações para a ferramenta Criar Recursos. A ferramenta Criar Recursos pode incluir mais de um fluxo de dados e o nome dado a cada conexão nos ajuda a rastrear a referência no painel de configuração.

 

 

FláviaB_6-1613674915984.png

 

 

Na ferramenta Criar Recursos, definimos as relações entre os nossos dados. A ferramenta Criar Recursos funciona melhor quando os dados estão no Terceira Forma Normal, em que um grupo de tabelas pode ser unido por meio de um conjunto de relacionamentos.

 

Neste exemplo, nossa tabela-alvo é “clientes”. Com base nos três relacionamentos definidos, os dados de todas as tabelas serão agregados ao nível do cliente.

 

 

FláviaB_7-1613674915987.png

 

 

Observe como a ferramenta Criar Recursos agrega automaticamente nossos dados de transações e as transações dos clientes (customer_transactions). Podemos ver quantas transações cada cliente fez e quantos itens foram comprados por eles.

 

FláviaB_8-1613674915988.png

 

 

Prático! Mas como isso aconteceu? Vamos dar uma olhada na coluna COUNT(customer_transactions). Observe a maneira como definimos que a tabela de cliente e a tabela customer_transactions são unidas pelo ID do cliente.

 

FláviaB_9-1613674915990.png

 

 

A partir daí, analisamos o número da nota fiscal, o elemento fundamental das transações dos clientes. Para cada cliente, contamos quantas notas fiscais distintas estão presentes na tabela. Assim, para o cliente 12346, podemos retornar uma contagem de duas transações na tabela final.

 

 

FláviaB_10-1613674915990.png

 

 

Podemos perguntar como e por que a ferramenta Criar Recursos cria os campos adicionais CONTAGEM (COUNT) e SOMA (SUM). Esses são dois novos recursos criados pela configuração que definimos na guia Gerenciar Primitivas da ferramenta Criar Recursos. Cada “primitiva” é um método usado para gerar novos recursos. Podemos selecionar até cinco primitivas. (O limite é para evitar que a ferramenta Criar Recursos gere muitos recursos, o que pode afetar negativamente o desempenho.)

 

FláviaB_11-1613674915993.png

 

 

Neste exemplo, 22 novos recursos são gerados no total, selecionando as primitivas Median, Max, Sum, Std e Count. Esses novos recursos podem fornecer informações adicionais sobre as transações da nossa loja que não estavam presentes nos dados brutos e que podem ser úteis para prever o comportamento futuro do cliente.

A criação de recursos (também conhecida como engenharia de recursos) é feita tradicionalmente por meio da gravação de códigos SQL complexos e de horas de experiências e iterações. Com a nova ferramenta Criar Recursos do Alteryx Intelligence Suite, podemos calcular rapidamente novos recursos, simplesmente definindo algumas relações! Essa é a magia da engenharia de recursos automática.

 

 

FláviaB_12-1613674915996.png

 

 

Graças às novas ferramentas Tipos de Recursos e Criar Recursos, criamos novas e significativas soluções que podem nos ajudar a criar um modelo preditivo aprimorado que forneça insights acionáveis para a obtenção dos melhores resultados de negócios. Esperamos que você aproveite todas as inovações da versão 2021.1! Divirtam-se!

Rótulos