Free Trial

Blog

Les analyses et les idées des plus grands esprits de l'analyse.
TIPS de la semaine

Chaque semaine, découvrez de nouvelles astuces et bonnes pratiques pour devenir un expert !

Voir l'index
Jean-Balteryx
16 - Nebula
16 - Nebula

Voici les réponses aux deux questions « Questions pour un outil » de la semaine du 26 juillet au 01 août 2021.

 

Vous pouvez toujours y participer sur LinkedIn ou la communauté :

 

La question du mardi était :

 

Slides.086.jpeg

 

En comparant le jeu de données et le résultat attendu on constate ceci :

  • Toutes les informations sont séparées, peu importe le caractère séparateur
  • Les informations sont récupérées dans 4 colonnes
  • On ne récupère pas la dernière information
  • Les champs sont nommés InformationX

Pour répondre aux premier point, il faut spécifier les différents séparateurs contenus dans nos données. Ce sont les suivants : , - :. L'outil séparera l'information dès qu'il rencontrera un de ces caractères.

 

Ensuite, on doit spécifier le nombre de nouvelles colonnes en sortie de l'outil, soit 4.

 

Puis on indique ce que l'on veut faire avec les caractères restants. Ici, nous ne souhaitons pas garder cette information mais ne voulons pas non plus avoir une erreur à l'exécution. Nous pouvons donc choisir soit l'option Abandonner le supplément avec avertissement, soit l'option Abandonner le supplément sans avertissement.

 

Pour finir, afin de nommer nos colonnes InformationX, il faut spécifier la valeur Information comme nom racine de sortie. L'outil ajoutera automatiquement une valeur numérique à cette racine pour différencier les colonnes.

 

Voici donc la configuration nécessaire pour nettoyer ce jeu de données :

 

Capture d’écran 2021-07-30 à 21.54.04.png

 

Voici la documentation de l'outil pour plus d'informations : https://help.alteryx.com/fr/current/designer/text-columns-tool

 

La question du jeudi était :

 

Slides.087.jpeg

 

Et les bonnes réponses sont ... A - La moyenne, C - La première valeur et D - La plus longue valeur !

 

L'outil Explorateur affiche plusieurs statistiques variant en fonction du type de champ : moyenne, médiane, etc. pour les champs numériques; la répartition pour les booléens; etc.

 

Et pour les chaînes de caractères, il affiche plusieurs statistiques dont la moyenne, la première valeur(alphabétiquement) et la plus longue valeur.

 

Prenons le jeu de données suivant :

 

Capture d’écran 2021-08-02 à 11.14.32.png

 

En utilisant un outil Explorateur, on obtient les statistiques suivantes sur ces données :

 

Capture d’écran 2021-08-02 à 11.12.57.png

 

On voit que la moyenne, en nombre de caractères, est de 19.5. Bien évidemment, il est impossible d'avoir un demi-caractère. Le calcul est purement mathématique.

 

On voit également que la plus longue valeur est "Ceci est une valeur assez longue comparée aux autres valeurs" et grâce à la statistique Maximum, on sait qu'elle est composée de 60 caractères.

 

Enfin, alphabétiquement, on voit que la première valeur est "Arrive". On a également la même chose pour la dernière valeur, ici "Thomas".

 

Voici la documentation de l'outil pour plus d'informations : https://help.alteryx.com/fr/current/designer/browse-tool

 

C'est tout pour cette semaine ! Rendez-vous la semaine prochaine pour deux nouvelles questions ! 🙂

Étiquettes