Free Trial

Base de Connaissance

Apprenez auprès des experts.
TIPS de la semaine

Chaque semaine, découvrez de nouvelles astuces et bonnes pratiques pour devenir un expert !

Voir l'index

Trucs et astuces pour une correspondance floue

Community_Admin
Alteryx
Alteryx
Créé
Trucs et astuces pour une correspondance floue
  1. Tous les champs que vous serez en correspondance floue sur qui se rapportent à l'information d'adresse doivent être exécutés par l'outil de Cass afin de normaliser les valeurs d'enregistrement. Les champs d'adresse d'origine doivent être désélectionnés du flux de données via un outil de sélection afin d'éviter toute confusion et de minimiser le temps de traitement (conseils d'optimisation de rappel ...).
  2. Lors de la fusion de deux fichiers de données (fusionner le processus de correspondance floue), utilisez une jointure pour supprimer les correspondances exactes du processus de correspondance floue. Le long de la même ligne de pensée, vous pouvez utiliser l'outil unique pour supprimer les matchs exacts si avant d'entrer dans votre processus de match de purge floue.
  3. Dans une correspondance floue de fusion, le côté gauche du match est généralement le fichier maître (par exemple, le fichier Experian hh ou le fichier info USA). Le côté droit est le fichier client, ou le fichier que nous essayons de faire correspondre au fichier maître. Compte tenu de cette configuration, dans chacun des différents passages de la correspondance floue, nous n'envoyons pas les enregistrements qui ont une correspondance de la gauche dans le passage suivant s'ils ont égalé.
  4. La logique du match flou est qu'une ou plusieurs choses seront considérées comme la chose forte ou la chose dont nous sommes les plus confiants. L'autre chose sera les choses que nous allons isoler par la logique floue afin de trouver un match. Exemple serait l'adresse et zip pour la pièce forte et le prénom et le nom de la pièce Fuzzy match.
  5. Seuils et poids des allumettes:
    1. Pour le processus correspondant qui se produit dans toute la portée d'un outil de correspondance floue, nous définissons le seuil de match total (le score final).
    2. Pour chaque champ que nous traitons dans l'outil Fuzzy match, nous pouvons déclarer un seuil de match et un poids de match pour ce champ.
    3. Qu'il se produise au niveau du champ ou de l'outil de correspondance floue, le seuil de match est une valeur de coupe stricte. Les correspondances qui génèrent une valeur de correspondance supérieure à votre seuil de match sont acceptées en tant qu'allumettes, celles qui tombent au-dessous, sont supprimées en tant que candidates de match.
    4. Le poids de match d'un champ particulier, vous permet d'appliquer une importance relative pour les différents domaines que vous assortis sur. Si vous avez 3 champs, où le poids d'allumette pour chacun est a = 100, B = 100, c = 75, alors vous dites Alteryx que le champ C devrait avoir une contribution moindre à la détermination de si ou non une allumette est faite. (comme les humains, pensez à la façon dont nous pourrions choisir un partenaire pour danser avec ...)
  6. Après avoir transmis vos données à l'aide de l'outil Fuzzy match, rejoignez vos données originales pour comparer les correspondances. Vous pouvez trier par score de match, pour voir si vous avez besoin d'ajuster vos seuils de match plus ou moins en fonction de la présence de faux-positifs matches, ou l'absence de fausses correspondances négatives. Comme Fuzzy appariement est intrinsèquement floue, il est assez commun, et en fait nécessaire pour exécuter votre module de nombreuses fois avec des paramètres différents. En règle générale, le plus de considération que vous placez sur le développement d'un module de correspondance floue approfondie, plus la valeur de votre sortie.
  7. Optimisation du temps de traitement correspondant flou:
    1. Étant donné que la correspondance floue peut vous obliger à exécuter votre module plusieurs fois, il est prudent de préparer vos données et de les enregistrer dans un fichier yxdb. L'enregistrement de vos données vers les fichiers yxdb vous permettra d'utiliser les fichiers yxdb en tant qu'entrée dans votre module de correspondance floue. Alteryx pouvez lire un fichier yxdb plus rapidement que d'autres types de fichiers, c'est donc un excellent endroit pour commencer avec l'optimisation.
    2. Une autre étape dans la préparation des données, est d'utiliser l'outil de champ automatique, qui permet à Alteryx de sélectionner le type de champ et la longueur les plus appropriés pour chaque champ de votre DataSet. Selon vos données d'entrée, ceci peut fournir des améliorations choquantes dans la vitesse.
    3. En supposant que vous allez faire une fusion Fuzzy match, vos fichiers nécessitent à la fois un champ d'ID d'enregistrement, et un champ source; vous pourriez aussi bien les ajouter maintenant.
    4. Enfin, il ne sert à rien de mettre des champs dans votre module Fuzzy match que vous n'avez pas besoin, utilisez un outil de sélection pour les supprimer maintenant.
    5. Enfin, utilisez vos nouveaux fichiers optimisés en tant qu'entrées yxdb dans votre module de correspondance floue. – pour résumer, préparez les données dans un module, puis Fuzzy le faire correspondre dans un autre.
  8. Selon que vous êtes DeDuping, la fusion ou les deux, essayez de minimiser votre contrôle croisé et les outils de navigation étrangers dans les données quand ils ne sont plus nécessaires. Par tous les moyens, la vérification croisée de vos données est le processus le plus important dans l'appariement flou, mais pour les grands modules, il est souvent utile de supprimer les outils qui ne sont plus nécessaires.
  9. Si vous êtes nouveau à Fuzzy appariement, la chose la plus importante que vous pouvez faire est de travailler à travers les 2 modules d'échantillon inclus avec Alteryx (DeDupeFuzzyMatching, et MergeFuzzyMatch), qui peut être trouvé au fichier > ouvrir Sample >> échantillons avancés.


Allumette floue
Étiquettes