Réservez votre place pour le Paris User Group (en présentiel ! ) qui aura lieu mercredi 17 Novembre à 18h30 !

Free Trial

Blog - Français

Les analyses et les idées des plus grands esprits de l'analyse.
TIPS de la semaine

Chaque semaine, découvrez de nouvelles astuces et bonnes pratiques pour devenir un expert !

Voir l'index
StephJ
Community Manager
Community Manager

Nous avons pris vos commentaires en considération et une chose est claire : un Citizen Data Scientist ne se résume pas à un seul rôle avec des compétences bien définies. Cela recouvre plutôt plusieurs rôles et divers besoins et niveaux d'expertise dans le domaine de l'analyse de données. Quoi qu'il en soit, nous sommes très heureux de vous annoncer l'ajout de quatre nouveaux outils dans le groupe Machine Learning d'Intelligence Suite : Intégrité des données, ML automatisé, Types de caractéristiques et Créer des caractéristiques. Nous avons développé trois d'entre eux (ML automatisé, Types de caractéristiques et Créer des caractéristiques) à l'aide des bibliothèques de Data Science de nos Innovation Labs. Vous pouvez désormais expérimenter la puissance de ces packages Python open source dans un workflow Alteryx. Le quatrième outil vous aide à déterminer rapidement l'intégrité de vos données avant d'entraîner votre modèle.

 

Intégrité des données

 

Que vous entamiez tout juste votre parcours de Citizen Data Scientist ou que vous souhaitiez rationaliser votre pipeline de Machine Learning, l'outil Intégrité des données est fait pour vous.  Il vous permet de vérifier l'état de vos données pour la modélisation prédictive.

StephJ_0-1612867482035.png

 

Cet outil vous donne des informations exploitables sur votre jeu de données dans ces 6 catégories : valeurs manquantes, unicité, dispersion, champs unaires (comme les ID) et valeurs inhabituelles. De cette façon, vous pouvez résoudre les problèmes dans vos données et construire le meilleur modèle possible dès le premier essai. La configuration est simple. Il vous suffit de décider si vous souhaitez des résultats normalisés (0-1) ou sous forme de pourcentages (0 – 100 %), puis l'outil fournit des scores basés sur les six métriques indiquées. Vous voulez en savoir plus ? Reportez-vous à cette rubrique d'aide.

 

 

StephJ_1-1612867482051.png

 

Types de caractéristiques et Créer des caractéristiques

 

Si vous êtes un utilisateur expérimenté déjà à l'aise avec la modélisation assistée et que vous souhaitez enrichir vos types de données ou générer de nouvelles caractéristiques, associez les outils Types de caractéristiques et Créer des caractéristiques pour obtenir de bien meilleurs modèles. 

StephJ_2-1612867482053.png

 

L'outil Types de caractéristiques détecte les types de données améliorés. Les types de données améliorés sont simplement des versions sophistiquées des types de données ordinaires. Par exemple, un nombre à cinq chiffres serait caractérisé comme étant une valeur numérique dans le type de données de base. Or, dans le type de données amélioré, ce nombre pourrait être détecté comme code postal américain. Par défaut, l'outil Types de caractéristiques détecte automatiquement les types de champs de données améliorés lorsque vous exécutez le workflow. Vous pouvez remplacer le type détecté automatiquement en spécifiant le type de données dans la colonne Modifier le type.

L'outil Types de caractéristiques est une entrée requise pour l'outil Créer des caractéristiques pour une ingénierie efficace des fonctionnalités et une entrée facultative pour l'Intégrité des données afin d'améliorer la sortie de rapport.

 

 

StephJ_3-1612867482053.png

 

L'outil Créer des caractéristiques crée automatiquement de nouvelles caractéristiques à partir de vos données existantes. Cela vous aide à structurer vos données de manière à ce que le modèle de Machine Learning puisse les analyser, ce qui augmente ses chances de trouver des tendances ou schémas significatifs. Il vous aide à découvrir les variables que vous n'avez peut-être pas envisagées (ou priorisées). Par exemple, vous pouvez transformer une colonne « date de naissance » en de nouvelles caractéristiques telles que « âge » ou « mois d'anniversaire ». 

 

 

StephJ_4-1612867482065.png

 

 

ML automatisé

StephJ_5-1612867482066.png

Une fois que vous vous êtes assuré de l'intégrité de vos données et que vous êtes passé à la modélisation, vous pouvez planifier votre workflow d'entraînement de modèles dans Alteryx Analytics Hub ou Alteryx Server. Tous les outils Machine Learning d'Intelligence Suite fonctionnent parfaitement dans les workflows hébergés dans Analytics Hub et Alteryx Server. La planification de votre workflow d'entraînement de modèles pour ré-entraîner régulièrement votre modèle est un excellent moyen de garantir son fonctionnement optimal.

 

Mais que se passe-t-il si vous vous attendez à ce que vos données d'entraînement changent de façon significative au fil du temps ? Dans ce cas, vous voudrez peut-être disposer de la flexibilité nécessaire pour actualiser automatiquement l'algorithme de votre modèle de façon à ce qu'il soit le mieux adapté possible à vos dernières données d'entraînement (par exemple, passer d'un modèle de forêt aléatoire à un modèle XGBoost) plutôt que de rester avec l'algorithme que vous avez sélectionné lors de la création initiale de votre workflow d'entraînement de modèles (par exemple, toujours pour un modèle de forêt aléatoire).

 

Si tel est le cas, nous avons créé pour vous un outil aussi facile à utiliser que la Modélisation assistée et parfait pour cette situation. L'outil ML automatisé vous permet d'entraîner un modèle sans l'interface en pop-up de la Modélisation assistée. Il est capable de sélectionner l'algorithme le mieux adapté à vos besoins. Bien que l'outil ML automatisé n'offre pas le même type d'accompagnement que la Modélisation assistée, il fournit la même puissance que la bibliothèque d'auto-modélisation EvalML dans un seul outil Alteryx autonome. Pour utiliser l'outil ML automatisé, sélectionnez simplement votre variable cible. À partir de là, la méthode de Machine Learning est automatiquement configurée en fonction de l'estimation du modèle. Cela dit, vous pouvez toujours l'ignorer en sélectionnant manuellement la méthode de Machine Learning.

 

Cet outil peut également se révéler utile si vous êtes un utilisateur très expérimenté qui souhaite créer rapidement des modèles de Machine Learning efficaces directement dans un workflow ou créer des applications analytiques qui sélectionnent un nouveau modèle entraîné à chaque exécution.

 

Qu'attendez-vous pour essayer par vous-même ?

L'équipe Data Science Innovation a travaillé dur pour intégrer la propriété intellectuelle de FeatureLab dans Alteryx Intelligence Suite. Téléchargez dès aujourd'hui le Kit de démarrage Intelligence Suite pour découvrir les modèles prêts à l'emploi avec leurs données d'exemples, des workflows et des cas d'usage. Disponibles dans Designer version 2021.1 avec une licence Alteryx Intelligence Suite (contactez votre chargé de compte), ces nouveaux outils sont fournis avec des workflows d'exemple (Aide > Échantillons de workflows > Apprendre un modèle à la fois) pour vous aider à démarrer. Vous pouvez également lire cet article de blog pour voir un exemple détaillé de l'utilisation de ces nouveaux outils.

 

 

*Cet article "Automated Feature Engineering with Alteryx Intelligence Suite" a été écrit par Sonia Prakasam, Data Science Product Manager, @sprakasam et publié sur la communauté anglaise. 

 

 

 

Étiquettes