Free Trial

Fórum

SOLUCIONADO

Normalização de Cidades Usando o Fuzzy Match Tool

CaioCesar
Meteoro

Pessoal, bom dia.

 

Estou trabalhando em uma base de dados onde o campo de cidade e UF foi aberto a diversos usuários, por muitos anos, com isso, os dados estão com várias inconsistências. Para que eu possa fazer análises geográficas mais consistentes, preciso fazer a normalização desse dado. Pensei em usar a ferramenta de Fuzzy Match, porém, já segui vários tutoriais da internet e nada deu certo, provavelmente porque a maioria deles são para aplicações em bases corporativas, endereços americanos, nomes abreviados, enfim, não deu certo. 

 

Gostaria que me ajudassem com isso, ou se possível, me indicar um material aplicável a este caso. 

 

 

Segue abaixo os dados, entradas e saídas esperadas.

 

 

Entrada:

 

CIDADEESTADO
BELO HORIZIONTE MG
BELO HORIZNTE  
BELO HORIZOBNTEMG
BELO HORIZOENTE MG
BELO HORIZOMNTEMG
BELO HORIZONEMG

 

Saída Esperada:

CIDADEESTADO
BELO HORIZONTEMG

 

 

Obs¹: Como base de dados correta, estou usando a tabela do IBGE, porém ela tem acentos e está em caixa baixa, irei normalizar eles também.

 

 

Muito obrigado a todos!

4 RESPOSTAS 4
carlosteixeira
15 - Aurora
15 - Aurora

Fala @CaioCesar tudo bem? Espero que sim.

 

Amigão, eu montei um workflow aqui, não se vai te ajudar mas apliquei alguns tratamentos nos dados das suas cidades base e fiz algumas formatações que são sugeridas quando usamos o FUZZY MATCH.

 

No workflow utilizei 2 modelos do fuzzy match, acho que com isso você consegue evoluir e testar outras formas de FUZZY MATCH.

 

Utilizando seu exemplo como base eu consegui chegar a BELO HORIZONTE apenas 1 cidade.

 

Espero que ajude ou te de uma luz no fim do túnel.

 

Qualquer dúvida estou à disposição.

 

Abraços

Carlos A Teixeira
CaioCesar
Meteoro

 

Fala @carlosteixeira2005! Tudo bem sim. 

 

Este final de semana consegui montar um modelo com a configuração abaixo, que até então estava sendo efetivo na medida do possível.

 

Mas de qualquer forma vou usar os seus modelos para aprimorar o meu e buscar um resultado mais acertivo. 

 

CaioCesar_0-1585141316378.png

 

Muito obrigado pela ajuda!

 

Abraços!

 

carlosteixeira
15 - Aurora
15 - Aurora

@CaioCesar show... 

Ainda vamos ver o fuzzy match configurado para o nosso idioma e aí sim teremos uma grande evolução. Por enquanto vamos usando esse mesmo.

Se precisar de mais alguma ajuda estamos por aqui.

 

Grande Abraço. Fique Bem.

 

Carlos Teixeira

Carlos A Teixeira
FláviaB
Alteryx Community Team
Alteryx Community Team

Muito obrigada pela ajuda, @carlosteixeira.

 

@CaioCesar nos avise se continuar com alguma dúvida! 😉 

Flávia Brancato
Rótulos