Pessoal, bom dia.
Estou trabalhando em uma base de dados onde o campo de cidade e UF foi aberto a diversos usuários, por muitos anos, com isso, os dados estão com várias inconsistências. Para que eu possa fazer análises geográficas mais consistentes, preciso fazer a normalização desse dado. Pensei em usar a ferramenta de Fuzzy Match, porém, já segui vários tutoriais da internet e nada deu certo, provavelmente porque a maioria deles são para aplicações em bases corporativas, endereços americanos, nomes abreviados, enfim, não deu certo.
Gostaria que me ajudassem com isso, ou se possível, me indicar um material aplicável a este caso.
Segue abaixo os dados, entradas e saídas esperadas.
Entrada:
CIDADE | ESTADO |
BELO HORIZIONTE | MG |
BELO HORIZNTE | |
BELO HORIZOBNTE | MG |
BELO HORIZOENTE | MG |
BELO HORIZOMNTE | MG |
BELO HORIZONE | MG |
Saída Esperada:
CIDADE | ESTADO |
BELO HORIZONTE | MG |
Obs¹: Como base de dados correta, estou usando a tabela do IBGE, porém ela tem acentos e está em caixa baixa, irei normalizar eles também.
Muito obrigado a todos!
Solucionado! Ir para Solução.
Fala @CaioCesar tudo bem? Espero que sim.
Amigão, eu montei um workflow aqui, não se vai te ajudar mas apliquei alguns tratamentos nos dados das suas cidades base e fiz algumas formatações que são sugeridas quando usamos o FUZZY MATCH.
No workflow utilizei 2 modelos do fuzzy match, acho que com isso você consegue evoluir e testar outras formas de FUZZY MATCH.
Utilizando seu exemplo como base eu consegui chegar a BELO HORIZONTE apenas 1 cidade.
Espero que ajude ou te de uma luz no fim do túnel.
Qualquer dúvida estou à disposição.
Abraços
Fala @carlosteixeira2005! Tudo bem sim.
Este final de semana consegui montar um modelo com a configuração abaixo, que até então estava sendo efetivo na medida do possível.
Mas de qualquer forma vou usar os seus modelos para aprimorar o meu e buscar um resultado mais acertivo.
Muito obrigado pela ajuda!
Abraços!
@CaioCesar show...
Ainda vamos ver o fuzzy match configurado para o nosso idioma e aí sim teremos uma grande evolução. Por enquanto vamos usando esse mesmo.
Se precisar de mais alguma ajuda estamos por aqui.
Grande Abraço. Fique Bem.
Carlos Teixeira
Muito obrigada pela ajuda, @carlosteixeira.
@CaioCesar nos avise se continuar com alguma dúvida! 😉