Chaque semaine, découvrez de nouvelles astuces et bonnes pratiques pour devenir un expert !
Voir l'index
Un grand classique. Comment identifier les doublons au sein d’une liste ou en comparant 2 listes. Dans la réalité cela mène à l’étape suivante de comparaison des doublons pour savoir lequel corriger ou éliminer.
Nous allons donc parcourir les quelques méthodes pour obtenir ce résultat.
Cet article est « hybride » au sens ou les exemples et explications sont valables pour la version Desktop ou Cloud. Il y aura donc des screens shots distincts si besoin. Les workflows des 2 versions sont à disposition en fin d’article.
Au menu, un petit nettoyage d’une liste de personnes prise totalement au hasard.
Facile, il y a un outil dédié : Unique
Il suffit de lui déclarer les champs sur lesquels on veut tester l’unicité. Ici Prénom et Nom.
Il est très intéressant car il ne se contente pas d’alerter sur les doublons mais il les place dans une sortie dédiée D pour pouvoir potentiellement les traiter.
On voit ici que nos doublons Luke Skywalker et Han Solo ont bien été identifiés et placés dans la sortie D.
Points importants à prendre en compte :
Bonne pratique :
Pour rendre son flux robuste, placer un objet TEST sur cette sortie D qui alertera si on a un nombre de ligne différent de 0. Cela indique au moins un doublon.
Ainsi le fait de se brancher sur la sortie U nous garantit une absence de doublon et donc la robustesse du flux. Et si demain pour une raison X ou Y des doublons apparaissent on est alerté.
Note: Au 31.01.2024 l’objet TEST n’est pas encore présent dans la version Cloud.
On l’a vu précédemment, oui on a identifié nos doublons, mais l’étape naturelle suivante est de les nettoyer et donc les comparer pour identifier celui qu’il faut corriger ou supprimer.
Le Unique est donc limité car ils sont séparés arbitrairement sur la base de l’ordre des lignes.
D’où le besoin de ces techniques de comparaison.
C’est-à-dire qu’on a 1 seul fichier avec des doublons à l’intérieur.
On n’utilise pas ici l’objet UNIQUE mais l’objet AGGREGER/ SUMMARIZE en lui demandant de faire des regroupements par Prénom/ Nom et de compter les lignes au sein de ce regroupement.
Si j’ai plus de 1 ligne c’est que j’ai un doublon.
Il ne reste alors qu’à filtrer sur Count >1 pour obtenir la liste des doublons.
On va ensuite via le JOINTURE/ JOIN rechercher toutes les lignes en doublon qui ont ces Prénoms & Noms.
On obtient bien une comparaison visuelle verticale de nos doublons pour analyser le champs Métier et déterminer lequel est le bon.
Si on veut comparer 2 listes distinctes, il nous faut cette fois ci utiliser l’outil JOINTURE/ JOIN qui ramène toutes les lignes qui ont la correspondance sur les champs associés : Prénom et Nom.
C’est une technique très pratique et robuste.
Inconvénient :
Ici on a juste la colonne Métier à analyser. Mais parfois pour identifier le doublon en erreur vous devez parcourir de nombreux champs et la lecture est complexe. Comparer les 20 1ères colonnes aux 20 suivantes, une par une est fastidieux).
D’où le besoin de basculer ces blocs l’un en dessous de l’autre pour une comparaison verticale.
On souhaite ici avoir les doublons l’un au-dessus de l’autre pour plus simplement comparer les valeurs des colonnes sans avoir à scroller. Nettement plus lisible donc.
La technique consiste à retraiter la liste initiale en 2 branches. L’une qui ne conservera que les colonnes de la Liste 1, l’autre les colonnes de la liste 2. On peut alors les consolider via l’outil UNION.
2 étapes préalables à cela :
Lorsqu’on consolide ces 2 sorties, comme les colonnes ont le même nom on obtient bien des lignes l’une au-dessus de l’autre.
Note :
L'exemple entre 2 listes ne traite que l'identification des doublons ENTRE les 2 listes mais pas les doublons au sein de chaque liste. Par exemple un doublon présent uniquement dans la liste 1 qui n'a pas de doublon dans la liste 2 n'apparaitra pas en sortie.
Il faut combiner les 2 techniques si vous souhaitez traiter ce "double" cas.
Avez-vous d’autres techniques pour identifier et comparer les doublons ?
N’hésitez pas à en faire part dans les commentaires.
Enjoy !
Note: Pour le wokrflow cloud, il faut dezipper pour obtenir le .json à charger dans votre workspace.
Pour ajouter un commentaire ici, vous devez être inscrit. Si vous êtes déjà inscrit, connectez-vous. Dans le cas contraire, inscrivez-vous puis connectez-vous.