Community Spring Cleaning week is here! Join your fellow Maveryx in digging through your old posts and marking comments on them as solved. Learn more here!
Free Trial

Fórum

SOLUCIONADO

Normalização de Cidades Usando o Fuzzy Match Tool

CaioCesar
Meteoro

Pessoal, bom dia.

 

Estou trabalhando em uma base de dados onde o campo de cidade e UF foi aberto a diversos usuários, por muitos anos, com isso, os dados estão com várias inconsistências. Para que eu possa fazer análises geográficas mais consistentes, preciso fazer a normalização desse dado. Pensei em usar a ferramenta de Fuzzy Match, porém, já segui vários tutoriais da internet e nada deu certo, provavelmente porque a maioria deles são para aplicações em bases corporativas, endereços americanos, nomes abreviados, enfim, não deu certo. 

 

Gostaria que me ajudassem com isso, ou se possível, me indicar um material aplicável a este caso. 

 

 

Segue abaixo os dados, entradas e saídas esperadas.

 

 

Entrada:

 

CIDADEESTADO
BELO HORIZIONTE MG
BELO HORIZNTE  
BELO HORIZOBNTEMG
BELO HORIZOENTE MG
BELO HORIZOMNTEMG
BELO HORIZONEMG

 

Saída Esperada:

CIDADEESTADO
BELO HORIZONTEMG

 

 

Obs¹: Como base de dados correta, estou usando a tabela do IBGE, porém ela tem acentos e está em caixa baixa, irei normalizar eles também.

 

 

Muito obrigado a todos!

4 RESPOSTAS 4
carlosteixeira
15 - Aurora
15 - Aurora

Fala @CaioCesar tudo bem? Espero que sim.

 

Amigão, eu montei um workflow aqui, não se vai te ajudar mas apliquei alguns tratamentos nos dados das suas cidades base e fiz algumas formatações que são sugeridas quando usamos o FUZZY MATCH.

 

No workflow utilizei 2 modelos do fuzzy match, acho que com isso você consegue evoluir e testar outras formas de FUZZY MATCH.

 

Utilizando seu exemplo como base eu consegui chegar a BELO HORIZONTE apenas 1 cidade.

 

Espero que ajude ou te de uma luz no fim do túnel.

 

Qualquer dúvida estou à disposição.

 

Abraços

Carlos A Teixeira
CaioCesar
Meteoro

 

Fala @carlosteixeira2005! Tudo bem sim. 

 

Este final de semana consegui montar um modelo com a configuração abaixo, que até então estava sendo efetivo na medida do possível.

 

Mas de qualquer forma vou usar os seus modelos para aprimorar o meu e buscar um resultado mais acertivo. 

 

CaioCesar_0-1585141316378.png

 

Muito obrigado pela ajuda!

 

Abraços!

 

carlosteixeira
15 - Aurora
15 - Aurora

@CaioCesar show... 

Ainda vamos ver o fuzzy match configurado para o nosso idioma e aí sim teremos uma grande evolução. Por enquanto vamos usando esse mesmo.

Se precisar de mais alguma ajuda estamos por aqui.

 

Grande Abraço. Fique Bem.

 

Carlos Teixeira

Carlos A Teixeira
FláviaB
Alteryx Community Team
Alteryx Community Team

Muito obrigada pela ajuda, @carlosteixeira.

 

@CaioCesar nos avise se continuar com alguma dúvida! 😉 

Flávia Brancato
Rótulos