Free Trial

Blog

Insights e ideias das mentes mais brilhantes em análise de dados.
Garabujo7
Alteryx
Alteryx

 

 

Tomado de GiphyTomado de Giphy

 

Atualizado com a nova versão 2021.3

 

AMP, mecanismo de processamento multithread Alteryx

 

O mecanismo é o motor que processa os dados no Alteryx.

 

Normalmente, não nos perguntamos como o Alteryx processa os dados ou o que está por trás, além da RAM, do hardware e do software, através de um mecanismo de processamento.

 

Esta nova versão do mecanismo inclui processamento paralelo ...

 

 

 

Chavo del 8 2.gif

 

Processamento paralelo?

 

Aqui está uma breve explicação.

 

 

AMP Animation 2.gif

 

 

 

Para facilitar, vamos pensar em um escritório que tenha apenas uma janela de serviço. O número de pessoas que pode participar simultaneamente é 1.

 

É um modelo de processamento sequencial. Para que o próximo seja atendido, é necessário aguardar o término do primeiro.

Neste exemplo, se cada pessoa levar cinco minutos para concluir, levará 20 minutos para quatro participantes.

 

 

AMP 1.png

 

 

 

Enquanto no processamento paralelo é como se tivéssemos quatro janelas de serviço, elas podem atender quatro pessoas ao mesmo tempo; portanto, nos mesmos vinte minutos, poderia atender 20 pessoas, quatro vezes mais.

 

 

 

AMP 2.png

 

 

O que o mecanismo AMP faz é dividir os dados em pacotes que são processados em paralelo, para uma execução mais rápida. Em outras palavras, o fluxo usará todos os núcleos de processamento e RAM quando você executar o fluxo.

 

 

Como uso o AMP em meus fluxos?

 

Primeiro de tudo você precisa ter a versão do Alteryx Designer 2020.2

 

Para verificar a versão do Alteryx que você instalou, vá para Ajuda -> Sobre.

 

 

 

Primeiros Passos do Alteryx 15.png

 

AMP PT 2.png

 

 

 

Se você não possui essa versão, pode atualizá-la a qualquer momento para começar a usar o AMP.

 

Vá para Ajuda -> Downloads do Alteryx. Selecione a versão 2020.2.

 

 

Primeiros Passos do Alteryx 14.png

 

Se você tiver dúvidas sobre qual versão baixar ou o processo de instalação, consulte este artigo (em espanhol) https://community.alteryx.com/t5/Blog-Espanol/Instalar-y-configurar-Alteryx-Designer/ba-p/599149

 

 

O AMP está disponível para todos os fluxos, mas nesta versão você precisa especificar que deseja usar o mecanismo AMP para cada fluxo individualmente. Para fazer isso, clique com o botão esquerdo em qualquer parte branca da tela.

 

 

 

AMP 7.png

 

 

 

Na parte esquerda da tela, você seleciona 'Tempo de execução' e, na parte inferior, a última opção diz 'Usar o mecanismo AMP'. 

 

 

 

AMP PT 1.png

 

 

 

Aplicar AMP a todos os fluxos de trabalho

 

 

A partir da versão 2021.1.4, é possível habilitar a aplicação de AMP a todos os fluxos de trabalho.

 

 

Garabujo7_0-1630098933745.png

 

 

Garabujo7_1-1630098944226.png

 

 

 

Com este parâmetro global, você não precisa mais especificar para cada fluxo que deseja usar AMP.

 

 

Perfil de desempenho com AMP

 

 

A partir da versão 2021.3, foi adicionada a capacidade de analisar o desempenho de blocos analíticos específicos ao usar AMP.

 

Para ativá-lo, selecione-o nas configurações do fluxo de trabalho e ative o perfil de desempenho.

 

 

Garabujo7_2-1630098994996.png

 

 

 

Aqui está um trecho da explicação de criação de perfil de desempenho de AMP de acordo com este artigo de ajuda do Alteryx: “O motor original retorna o tempo em milissegundos que cada ferramenta levou para executar, medido com precisão de 0,01 ms. O AMP pode ter múltiplos trabalhadores para cada ferramenta, mas o tempo total será combinado por ferramenta.

 

Destaques sobre a geração do perfil de desemprenho com o AMP

 

Os resultados do perfil de desempenho entre o motor original e o AMP não devem ser comparados, pois são de natureza diferente. O AMP usa muitos threads para executar tarefas, mas o tempo total será calculado pela soma da contagem dos threads usados para cada ferramenta.

 

O tempo total por ferramenta pode ser maior do que o tempo total do fluxo de trabalho devido à natureza multithread do AMP.

 

Quando não há memória suficiente para executar um fluxo de trabalho, o AMP realiza um gerenciamento de memória adicional, o que é relatado em uma mensagem separada "Foram gastos N ms no gerenciamento de memória. Isso corresponde a M% do tempo total de execução do fluxo de trabalho.".

Agora você pode executar seu fluxo e sentir o poder do mecanismo de processamento paralelo da Alteryx, o AMP.

 

 

Como verificar se estou usando o AMP?

 

 

Para verificar se você está usando o AMP, você pode ver na janela de resultados se a seguinte mensagem aparecer: Este é o AMP Engine.

 

 

 

AMP PT 3.png

 

Exemplo de execução

 

Executei o exemplo a seguir no meu computador local, onde me conecto a um banco de dados do SQL Server que lê 10,4 milhões de registros e combina com dois arquivos do Excel, um com 99.000, um com 21.000 e 1 CSV com 2.400 registros, respectivamente.

 

 

 

AMP 10.png

 

 

A união dos três é feita com um bloco analítico de busca e substituição, que também é mais eficiente em termos de computação do que a união tradicional.

 

O processo leva em média de 12 segundos a um minuto.

 

 

 

AMP PT 4.png

 

 

É uma grande diferença para um volume relativamente grande de dados, embora o melhor teste seja aquele que você executa no seu computador e com seus próprios dados para validá-lo.

 

 

 

Happy 10.gif

 

 

Você já experimentou? Compartilhe sua experiência nos comentários!

 

 

Credit to Giphy.comCredit to Giphy.com

 

Considerações

 

Como tudo na vida, os resultados podem variar e depender de muitos fatores, como a complexidade do fluxo de trabalho, quais blocos analíticos você usa, o tamanho dos dados e o hardware que você tem disponível.

 

 

Requisitos para AMP

 

O mecanismo AMP deve ter pelo menos 400 MB para processar um subprocesso de um fluxo de trabalho. Por exemplo, com oito subprocessos, deve haver pelo menos 3,2 GB de memória disponível para o AMP em tempo de execução.

 

Rótulos