Chaque semaine, découvrez de nouvelles astuces et bonnes pratiques pour devenir un expert !
Voir l'indexNous sommes très heureux d'annoncer l'arrivée d'une nouvelle fonctionnalité majeure de Machine Learning automatisé dans la version 2021.1 d'Alteryx Intelligence Suite : l'ingénierie des caractéristiques. Ainsi, vos équipes pourront créer plus rapidement des modèles de Machine Learning de grande qualité sans perdre de vue leur valeur pour les métiers.
L'ingénierie des caractéristiques consiste, selon la définition générale, à créer de nouvelles colonnes (ou « caractéristiques ») à partir de données brutes en recourant à différentes techniques. Elle est largement reconnue comme un facteur clé de réussite dans les projets de Data Science. Il n'est pas très facile de créer des caractéristiques pertinentes. Cela demande beaucoup de temps et souvent, il faut savoir coder. Grâce aux nouvelles possibilités d'ingénierie des caractéristiques offertes dans Alteryx Intelligence Suite, ce processus devient facile et rapide pour les Data Scientists et les analystes, et même pour les utilisateurs moins spécialisés.
Lançons-nous dans l'ingénierie des caractéristiques pour faire évoluer nos pratiques analytiques !
Lorsque nous commençons une analyse, peu importe laquelle, l'acquisition des données est souvent la partie la plus difficile. En effet, celles-ci sont généralement dispersées dans plusieurs sources de données sous forme brute. En général, les analystes utilisent Alteryx ou un langage comme SQL pour agréger les données et générer des champs pour l'analyse.
Supposons que nous travaillions dans le commerce de détail et que nous vendions un ensemble bien défini d'articles :
Un client nous achète plusieurs articles dans la même transaction :
Nous avons par ailleurs des dates pour chaque transaction :
Nous disposons également d'informations pour tous les clients dans notre base de données :
Supposons que nos managers nous posent la question suivante : « Quels clients effectueront le plus grand nombre de transactions au cours de l'année à venir ? ». Alteryx Intelligence Suite nous permet de répondre à cette question en quelques étapes simples.
Pour chacune des tables de données brutes, nous devons d'abord définir correctement le type de données et optimiser la taille des champs pour l'analyse en aval. Pour ce faire, nous utilisons l'outil Champ automatique de Designer avec le nouvel outil Types de caractéristiques d'Alteryx Intelligence Suite.
L'outil Types de caractéristiques effectue le « typage sémantique des données », ce qui ajoute du contexte concret au type de données de base. Par exemple, un champ pour le code postal pourrait être stocké avec le type de données Nombre entier. Le typage sémantique permet d'associer ce champ de type Nombre entier à un type de données Code postal pour mieux l'exploiter dans l'ingénierie des caractéristiques.
Dans le panneau de configuration de l'outil Types de caractéristiques, nous pouvons utiliser l'option « Détection automatique » sous Modifier le type (respectivement Autodetect et Change Type dans l'illustration ci-dessous). Avec cette option, l'outil va analyser chaque colonne et tenter d'extraire automatiquement ce à quoi le champ correspond en réalité. Nous pouvons changer manuellement le type de sortie si nécessaire. Choisir le bon type de sortie (type sémantique) permet d'améliorer la qualité des caractéristiques que nous générons à l'étape suivante.
Après avoir défini nos types de données, nous envoyons toutes nos données à l'outil Créer des caractéristiques. L'outil Créer des caractéristiques peut prendre en charge plusieurs flux d'entrée de données. Le nom descriptif donné à chaque connexion de données nous permet de suivre les données par cette référence dans le panneau de configuration.
Dans l'outil Créer des caractéristiques, nous définissons les relations entre nos données. Cet outil fonctionne mieux lorsque les données sont en troisième forme normale (3NF), ce qui nous permet de disposer d'un ensemble de tables pouvant être combinées via plusieurs relations.
Dans cet exemple, notre table cible concerne les clients. D'après les trois relations définies, les données de toutes les tables seront agrégées au niveau du client.
Notez la façon dont l'outil Créer des caractéristiques agrège automatiquement les données des tables « customer_transactions » et « transactions ». Nous pouvons voir le nombre de transactions pour chaque client, ainsi que le nombre total d'articles achetés pour toutes les transactions.
C'est pratique ! Mais comment en sommes-nous arrivés là ? Observons la colonne COUNT(customer_transactions) ci-dessus. Notez la façon dont nous avons défini que la table des clients et celle des transactions associées sont réunies via la clé customerID.
Examinons maintenant la clé primaire InvoiceNo, utilisée pour les transactions des clients. Pour chaque client, nous comptons le nombre de factures distinctes figurant dans la table. Ainsi, pour le client 12346, nous pouvons renvoyer un total de deux transactions dans la table finale.
Nous pouvons nous demander de quelle façon et pour quelle raison l'outil Créer des caractéristiques crée des champs supplémentaires pour compter et additionner. Il s'agit de deux nouvelles caractéristiques créées par la configuration que nous avons définie dans l'onglet Gérer les primitives de l'outil Créer des caractéristiques. Chaque « primitive » correspond à une méthode utilisée pour générer de nouvelles caractéristiques. Nous pouvons sélectionner jusqu'à cinq primitives. (Ce seuil permet d'empêcher l'outil Créer des caractéristiques de générer trop de caractéristiques, ce qui pourrait nuire aux performances.)
Dans cet exemple, 22 nouvelles caractéristiques sont générées au total en sélectionnant les primitives Médiane, Max, Somme, Écart type et Comptage. Ces nouvelles caractéristiques peuvent fournir à propos des transactions de notre magasin des informations supplémentaires qui ne figuraient pas dans les données brutes. En outre, elles peuvent se révéler utiles pour prédire le comportement futur des clients.
La création de caractéristiques (ou ingénierie des caractéristiques) s'effectue traditionnellement en écrivant un code SQL complexe et en consacrant un temps considérable à l'expérimentation et aux itérations. Grâce au nouvel outil Créer des caractéristiques d'Alteryx Intelligence Suite, il suffit de définir quelques relations pour calculer rapidement de nouvelles caractéristiques ! La magie de l'ingénierie des caractéristiques automatique se charge du reste.
Grâce aux nouveaux outils Types de caractéristiques et Créer des caractéristiques, nous avons généré de nouvelles caractéristiques utiles qui nous permettent de créer un modèle prédictif plus efficace. Nous obtenons ainsi des insights exploitables qui vont nous aider à booster nos résultats finaux. Nous espérons que ces nouvelles innovations apportées à la version 2021.1 vous plairont !
Résolvez comme jamais !
*Cet article "How to Use Automated Feature Engineering in Alteryx Intelligence Suite" a été écrit par Hwasu Kim @HwasuK et publié sur la communauté anglaise.
Pour ajouter un commentaire ici, vous devez être inscrit. Si vous êtes déjà inscrit, connectez-vous. Dans le cas contraire, inscrivez-vous puis connectez-vous.