Chaque semaine, découvrez de nouvelles astuces et bonnes pratiques pour devenir un expert !
Voir l'indexle 05-18-2021 06:30 AM
Alors, quel est le défi de cette semaine ?
Cette semaine nous reprenons la problématique des données non-structurées.
Nous avons comme défi de structurer des données d'adresses. Il n'y a pas des séparateurs que nous pouvons utiliser et le nom des rues ne nous intéressent pas. Il faut donc analyser le texte ...
Avant de commencer de vous parler de ma solution, je voudrais prendre le temps pour remercier les experts des Regex qui m'ont débloqué à plusieurs reprises et qui m'ont donné l'envie et les raisons d'utiliser ces expersions ultra puissantes.
Merci @Toons pour ta soltion qui m'a débloqué sur ce défi. Merci @Ladarthure pour ta solution 100% RegEx sur le défi 56.
Merci aussi à tous les contributeurs de cet article, que je vous le recommande fortement.
Entrée/Sortie
Comme nous pouvons voir ci-après les adresses sont sur une seule colonne avec plusieurs informations (n° voie, nom de voie, ville, code État et code postal parfois)
Et voilà ce qu'on attend à la fin :
Problématique / Choix
Pour moi, il y avait deux difficultés sur ce défi, le premier est ma volonté d'utiliser le RegEx et la deuxième etait les villes à deux mots.
Finalement, le RegEx m'a permis facilement d’être plus efficace sur ce type d'analyse.
La méthode de sortie 'Analyser' m'a permis de créer plusieurs colonnes avec des expressions différentes.
J'ai cherché un peu comment isoler le nom de ville sachant qu'il est par fois composé de plusieurs mot mais je n'ai pas réussi. J'ai donc appris grâce à la solution de @Toons qu'il suffisait de prendre tous les caractères entre l' éspace après le type de voie et l'espace avant le code de l'État.
À la semaine prochaine
Cheers,
Amr