Free Trial

Blog

Insights e ideias das mentes mais brilhantes em análise de dados.

Neste caso temos uma de transações comerciais realizadas por diferentes empresas do grupo. Podemos observar que muitos campos “Company” possuem entradas parecidas, podendo ser inferido que são o mesmo campo com formas de digitar diferentes. Queremos padronizar os campos para que essas entradas de digitação diferentes sejam padronizadas.

 

Dica7-Img1.png

 

Primeiro, conectamos a base em uma ferramenta “Fuzy Match”, utilizamos o “Purge Mode” e configuramos conforme a imagem abaixo:

 

Dica7-Img2.png

 

Obs: Dependendo da base, o campo de “Threshold” deverá ser utilizado para testes para que o algoritmo consiga encontrar mais campos com digitação parecida

Podemos encontrar o seguinte resultado:

 

Dica7-Img3.png

 

Conectamos a saída dessa ferramenta em um fluxo com as configurações mostradas abaixo:

 

Dica7-Img4.png

 

A tabela de resultado desse fluxo, deverá ser usado na entrada “R” de uma ferramenta “Find and Replace” junto com a base inicial na entrada “F” para padronização do resultado final.

 

Dica7-Img5.png

 

Pronto!  Agora você já sabe como utilizar a ferramenta “Fuzzy Match” para encontrar campos com inputs parecidos e substituí-los por um campo em comum.

 

Dica7-Img6.png

 

Abs,

 

VS

 

Comentários
FláviaB
Alteryx Community Team
Alteryx Community Team

Perfeito, @veronicasimoes! Obrigada por compartilhar. Já vi alguns membros aqui perguntando algumas dicas sobre a ferramenta Fuzzy Match. Tenho certeza que esse conteúdo será muito bem aproveitado. 

 

Aliás, @Prcmoura, talvez essas dicas também possam te ajudar para outros fluxos usando essa ferramenta. Lembro que você postou aqui sobre a Fuzzy Match recentemente 😉 

Prcmoura
Meteoroide

Obrigado @FláviaB e @veronicasimoes! Será útil com certeza!

pitterfreire
Átomo

Parabéns Re: Usando a ferramenta Fuzzy Match para padronizar inputs , ótimo artigo. Porém, estou tendo um problema aqui exatamente com esse componente. Por algum motivo, na minha saída, ele está excluindo linhas de entrada.

 

pitterfreire_0-1643058146435.png

 

Mesmo no Advanced Options está marcado como trazer as linhas com Score ou sem Score. Sabe me dizer o que poderia ser isso?

 

Segue alguns prints sobre a configuração:

pitterfreire_1-1643058221486.png

 

Detalhe do Custom:

 

pitterfreire_2-1643058268828.png

 

 

Abs

Pitter Freire

FláviaB
Alteryx Community Team
Alteryx Community Team

Oi, @pitterfreire. Para a sua questão ter mais visibilidade, sugiro criar um novo tópico no nosso Fórum

Enquanto isso, @veronicasimoes, consegue auxiliar com esse problema? 

Rótulos