Free Trial

Blog

Insights e ideias das mentes mais brilhantes em análise de dados.

Neste caso temos uma de transações comerciais realizadas por diferentes empresas do grupo. Podemos observar que muitos campos “Company” possuem entradas parecidas, podendo ser inferido que são o mesmo campo com formas de digitar diferentes. Queremos padronizar os campos para que essas entradas de digitação diferentes sejam padronizadas.

 

Dica7-Img1.png

 

Primeiro, conectamos a base em uma ferramenta “Fuzy Match”, utilizamos o “Purge Mode” e configuramos conforme a imagem abaixo:

 

Dica7-Img2.png

 

Obs: Dependendo da base, o campo de “Threshold” deverá ser utilizado para testes para que o algoritmo consiga encontrar mais campos com digitação parecida

Podemos encontrar o seguinte resultado:

 

Dica7-Img3.png

 

Conectamos a saída dessa ferramenta em um fluxo com as configurações mostradas abaixo:

 

Dica7-Img4.png

 

A tabela de resultado desse fluxo, deverá ser usado na entrada “R” de uma ferramenta “Find and Replace” junto com a base inicial na entrada “F” para padronização do resultado final.

 

Dica7-Img5.png

 

Pronto!  Agora você já sabe como utilizar a ferramenta “Fuzzy Match” para encontrar campos com inputs parecidos e substituí-los por um campo em comum.

 

Dica7-Img6.png

 

Abs,

 

VS

 

Comentários
Rótulos