Cet article fait partie de la série Maîtrise des outils, une compilation de contributions à la Base de connaissances visant à présenter divers exemples d'utilisation des outils Designer. Ici, nous allons nous pencher sur les utilisations de l'outil Correspondance partielle dans le cadre de notre apprentissage de la maîtrise d'Alteryx Designer :
Similaire à la recherche partielle d'Excel, l'outil Correspondance partielle (admirez-le en pleine action ici) facilite la mise en correspondance inexacte des données. En spécifiant des seuils de similarité, en utilisant différents algorithmes de correspondance et en définissant d'autres options de configuration, vous pouvez personnaliser l'outil afin qu'il s'adapte au mieux à votre jeu de données. Du fait du haut degré de personnalisation de l'outil, nous recommandons d'évoluer progressivement en visionnant nos vidéos de formation interactive de niveau initiation et intermédiaires si vous envisagez d'utiliser des applications plus complexes de l'outil. Nous vous proposons également une Foire aux questions et des Conseils et astuces en matière de correspondance partielle qui peuvent également vous faciliter l'utilisation de l'outil !
Dans la vie, peu de choses sont complètement claires et précises, noir sur blanc. Dans tous les domaines, il existe des zones intermédiaires, et les lignes qui séparent les choses les unes des autres peuvent être partielles. Il en est de même pour les données, en particulier quand elles sont saisies manuellement. C'est pourquoi nous avons conçu l'outil Correspondance partielle : si vos données ne sont pas claires comme de l'eau de roche, vous pouvez tout de même tirer parti de vos enregistrements en les mettant en correspondance avec quelque chose d'un peu plus standardisé. Une opération qui peut s'avérer utile dans les cas suivants :
Suppression des données dupliquées d'un seul jeu de données contenant des enregistrements en double (exemple ci-joint dans Fuzzy Match.yxmd) :
Fusion de deux jeux de données et identification des enregistrements redondants (exemple ci-joint dans Fuzzy Match.yxmd) :
Remarque : Il est vivement recommandé de commencer par purger (dédupliquer) chacun de vos jeux de données à fusionner avant de les utiliser en mode fusion afin d'éliminer toutes les correspondances redondantes et accélérer ainsi considérablement le processus de mise en correspondance.
Comparaison et nettoyage des chaînes, et mise en correspondance avec des mots-clés
Ces techniques vous aideront à identifier les noms, adresses et numéros de téléphone similaires, voire les fautes d'orthographe dans vos données, afin de transformer les chaînes inexactes en analyses exactes !
Si vous manipulez spécifiquement des noms, assurez-vous de consulter notre Guide sur la mise en correspondance partielle des surnoms. Si vous devez diminuer le seuil de correspondance au point où la mise en correspondance de certaines chaînes devient incorrecte, mais que d’autres chaînes ne correspondent pas, tentez de « mettre en cascade » le processus de mise en correspondance à l'aide d'un autre outil Correspondance partielle uniquement pour les chaînes qui ont besoin d’un seuil de correspondance inférieur, puis utilisez l’outil Union pour les fusionner avec le premier jeu.
Maintenant, vous devriez être un(e) expert(e) de l'outil Correspondance partielle !
Si vous pensez à un cas d'utilisation que nous avons oublié, n'hésitez pas à utiliser la section commentaires ci-dessous !
Vous souhaitez maintenant contribuer au blog de la communauté en partageant vos expériences et en apprenant à utiliser nos nouveaux outils dans votre vie quotidienne, envoyez moi un e-mail à Stephanie.jansen@alteryx.com.
Si vous avez des questions, la communauté est là pour y répondre sur le Forum.
Restez à l'écoute de nos dernières publications en vous abonnant aux notifications par email sur la Base de Connaissance.
*Cet article a été écrit par @MattD sur la Communauté anglaise.
Afficher l'article complet