Chaque semaine, découvrez de nouvelles astuces et bonnes pratiques pour devenir un expert !
Voir l'indexL’Intelligence Suite est maintenant sortie. Avec elle, on voit arriver les outils « Assisted Modelling » dans la catégorie « Machine Learning » qui permettent de créer un modèle de manière simple.
Avant d’entrer dans le vif du sujet, qu’est ce que veut dire le terme « Assisted Modelling » ? C’est un nouvel outil Alteryx qui va permettre de guider l’utilisateur étape par étape pour la création d’un modèle prédictif. Prenons un exemple pour voir comment cela se passe concrètement et quelles sont les étapes, puis je vous donnerai mon avis sur cet outil !
Le fonctionnement
Pour tester ce nouvel outil, nous allons utiliser un jeu de données qui traite des pingouins et de la prédiction des espèces de pingouins basé sur les plusieurs éléments : poids, longueur des nageoires, profondeur et largeur du bec, île de vie pour chacun des pingouins.
Passons à la pratique
Je vais d’abord séparer mon jeu de données en 2 parties ; une partie (70%) qui va me permettre d’entraîner mon modèle puis une partie (30%) pour vérifier ma prédiction et voir la précision de mon modèle.
Jusqu’ici rien de nouveau, ensuite je vais ajouter ce nouvel outil Modélisation assistée ou Assisted Modelling, puis lancer mon workflow pour commencer la configuration de mon modèle (sans l’avoir lancé ou exécuter une fois, on ne peut pas le paramétrer).
Premier point, j’arrive sur une première fenêtre qui m’explique ce que je vais devoir faire sous la forme d’un tutoriel me permettant de prendre connaissance des principales étapes.
Première étape : sélectionner la variable et la méthode.
Je commence ensuite la construction et je vais sélectionner la variable que je souhaite prédire, ici les espèces de pingouins.
J’ai une brève description de la catégorie de modèles qui va être utilisé, ici les modèles de classification.
Deuxième étape : Définir les types de données.
Je vais ensuite pouvoir typer mes données avec des types recommandés basés sur une analyse rapide des données disponibles.
Troisième étape : Nettoyer les valeurs manquantes.
Je vais ensuite pouvoir choisir quoi faire avec les valeurs manquantes, donc les remplacer. C’est rapide et simple.
Quatrième étape : Sélectionner les variables.
Une fois ceci fait, je vais pouvoir sélectionner mes variables prédicteurs et voir directement qu’il y a une variable ici qui est fortement associée à ma variable cible. L’indicateur est clair, on le voit et on va donc décocher la variable « island » qui est trop formenet corrélée.
Cinquième étape : Sélectionner les modèles.
Avant-dernière étape, on va choisir les modèles que l’on veut tester avec quelques éléments pour comprendre les plus et les moins de chacun des modèles.
Dernière étape : Exécuter les modèles sélectionnées.
Puis, je lance mes modèles et Alteryx va comparer mes différents modèles puis me donner un ensemble de statistiques liées à l’interprétation des modèles avec notamment la précision qui permet de déterminer quel serait le modèle le plus performant. Dans notre exemple la « random Forest » est la plus performante, je vais donc l’ajouter à mon workflow via un bouton au bas de l’écran
Et voilà, en une petite dizaine de minutes, j’ai pu comparer plusieurs modèles et choisir celui qui était le plus performant. Je peux maintenant voir si ce modèle fonctionne correctement en utilisant l’outil « Predict Values » et en prenant mon échantillon de validation.
L’avis d'un ACE sur cet outil
L’interface est simple et intuitive, J’ai particulièrement apprécié la possibilité de tester rapidement plusieurs modèles, de manière simple et didactique. N’étant pas data scientist, cet outil Assisted Modelling permet de rapidement faire quelque chose d’exploitable. En fouillant un peu, une fois que le modèle est choisi, on voit que l’on peut modifier des paramètres de manière simple.
Pour conclure, je dirais que l’outil est très bien pensé, très simple à utiliser, mais à la fois pas assez poussé pour un « Data Scientist » (manque de paramétrage possible). En effet, l’outil est tellement simple à utiliser qu’un novice peut faire des modèles qui produiraient des prédictions fausses. J’aurais donc tendance à le mettre entre les mains d’un public relativement averti ou à minima d’un public supervisé par une personne avertie étant capable de remettre en cause les travaux réalisés.
Quelques ressources pour aller plus loin :
https://help.alteryx.com/2020.2/MachineLearning/MLModelingTool.htm
https://help.alteryx.com/2020.2/MachineLearning/MLPredictTool.htm
Pour ajouter un commentaire ici, vous devez être inscrit. Si vous êtes déjà inscrit, connectez-vous. Dans le cas contraire, inscrivez-vous puis connectez-vous.