Chaque semaine, découvrez de nouvelles astuces et bonnes pratiques pour devenir un expert !
Voir l'index
Comment optimiser des zones de livraison ? Identifier des zones de criminalité ? Optimiser une campagne marketing avec un meilleur ciblage client ?
Ces cas d’usage ont un point commun : Le découpage des données en groupes homogènes pour faciliter la prise de décision.
Nous allons voir dans cet article comment, avec quelques étapes simples, vous pourrez utiliser le clustering pour vos problématiques métiers.
Le clustering est une méthode qui permet de partitionner les données en un ensemble homogène ayant des similitudes.
Il existe 3 applications de clustering :
Ici, nous allons nous concentrer sur l’usage de la classification.
Imaginez un analyste de données dans une banque de détail qui doit fournir une analyse pour créer de nouvelles offres bancaires : Solutions de paiement, offres de crédit, etc.
Il a un échantillon de données qui contient des informations d’utilisations de carte bancaire de 9000 clients.
Cet échantillon de données contient des comportements d’usage sur 18 variables tels que la fréquence d’achat, niveau de débit autorisé, plafond de paiement, etc.
Sur la base de ces données, l’objectif est de créer des sous-groupes ayant des comportements d’utilisation similaire. Ceci peut non seulement aider à créer de nouveaux produits bancaires, mais également faciliter le ciblage de nouveaux clients avec des campagnes marketing optimisées, ou encore identifier le taux de départ de clients vers de nouvelles banques.
Pour faire cette classification, il existe plusieurs méthodes, parmi elles, le « K-means ».
K-means est un algorithme non supervisé de clustering non hiérarchique.Il permet de regrouper en clusters distincts les observations du data set. Ainsi les données similaires se retrouveront dans un même cluster.
Pour pouvoir regrouper un jeu de données en K cluster distincts, l’algorithme K-Means a besoin d’un moyen de comparer le degré de similarité entre les différentes observations. Ainsi, deux données qui se ressemblent, auront une distance de dissimilarité réduite, alors que deux objets différents auront une distance de séparation plus grande.
Comme indiqué dans l'image, l'objectif est de prendre les données des 9000 usagers de carte bancaire pour en faire des groupes similaires.
Analyse segmentation client :
Groupe 1 : Clients avec une limite de crédit moyenne à elevée qui effectuent tout type d'achat
Gourpe 2 : Clients des prennent souvent des fonds en avance
Groupe 3 : Profils moins dépensiers avec des limites de crédit moyennes à élevées
Groupe 4 : Clients avec une limite de crédit élevée qui prennent plus d'argent en avance
Gourpe 5 : Grands consomateurs à limite de crédit élevée qui effectuent des achats coûteux
Groupe 6 : Personnes qui dépensent peu d'argent et dont la limite de crédit est moyenne à élevée
Ces groupes ont été identifiés grâce à l'anayse suivante :
=> Chaque ligne représente une variable différente : Balance, nature des dépenses, plafond autorisé, etc.
Il est donc possible de rentrer plus dans le détail de chaque cluster pour apprécier les résultats.
Par exemple, vous pouvez voir dans le cluster 5, et voir comment la variable "Balance" est présenté.
Vous voyez que le cluster 5 a des individus qui ont des balances élevée à très élevée.
Vous pouvez également voir que les clients dans le cluster 5 ont peu recours à des avances de paiement.
Enfin, nous voyons aussi qu'ils sont capables de faire des achats ayant de grands montants
Après l'identification des différents groupes en analysant leurs habitudes d'utilisation de carte bancaire, il est possible de proposer de nouveaux produits bancaires.
Par exemple sur le cluster 5, vous avez appris qu'ils ont les attributs suivants :
1. Possesion d'un grand cashflow au niveau de la balance
2. Faible recours à des avances de paiement
3. Capacité d'effectuer des paiement avec de grands montants
Pour ce type de client, il est possible de proposer des offres de gestion privée avec des solutions d'investissement.
L'équipe produit peut donc lancer une stratégie commerciale "Data driven" sur la base de cette analyse pour construire une nouvelle offre
Etape 1 : Importer le jeu de données dans Alteryx grâce à l’input tool. Pour explorer vos données, vous pouvez utiliser le « browse tool ».
Etape 2 : On utilise ensuite l’outil « Auto field » pour typer correctement les champs, ainsi que l’outil « Data Cleansing » pour nettoyer les valeurs nulls.
Etape 3 : Utilisation de l’algorithme « K means » :
=> Cette étape a pour effet d’affecter chaque client à un groupe contenant des clients ayant les mêmes habitudes d’utilisation.
Vous pouvez ensuite utiliser le rapport lié à l'outil de clustering pour avoir des analyses supplémentaires sur le partititionnement opéré telles que le nombre d'observations par cluster.
Dernière étape :
Pour faciliter la lecture, vous pouvez créer des intervalles sur vos observations et les visualisez sur des graphiques.
Pour savoir comment utiliser les outils visualytics, je vous invite à visionner notre webinar :
Premiers pas avec les outils visualytics: https://webikeo.fr/webinar/premiers-pas-avec-alteryx-visualytics-l-outil-de-data-investigation-1?cha...
Voici le worfklow qui permet de faire ce travail (disponible en téléchargement à la fin de l'article)
Bonne journée,
Zakaria
Pour ajouter un commentaire ici, vous devez être inscrit. Si vous êtes déjà inscrit, connectez-vous. Dans le cas contraire, inscrivez-vous puis connectez-vous.