Free Trial

Blog

Les analyses et les idées des plus grands esprits de l'analyse.
TIPS de la semaine

Chaque semaine, découvrez de nouvelles astuces et bonnes pratiques pour devenir un expert !

Voir l'index
EmmanuelL
Alteryx
Alteryx

 

EmmanuelL_0-1677597430872.jpeg

 

S’il y’a bien une profession qui a de l’humour en France, il s’agit bien de nos coiffeurs. Il existe une effet une règle implicite en France qui veut que plus de la moitié des salons soient nommés avec un jeu de mot.

 

Une simple balade dans une rue commercial permettra au promeneur à l’œil aiguisé de repérer ces « boulevard Volt’Hair » et autres « instinc’tif ».

 

Deux questions cependant me viennent à l’esprit quand il s’agit de ces jeux de mots :

  • Comment se fait-il que cette profession soit particulièrement touchée par ces boutades nominatives ?
  • Quelles sont celles qui sont les plus utilisées ?

Si la première question n’a pas de réponse évidente, la deuxième peut trouver une réponse relativement facilement grâce à Alteryx.

 

Cérémonie secrète à l'issue de la remise de diplôme CAP coiffureCérémonie secrète à l'issue de la remise de diplôme CAP coiffure

 

Pour répondre à la question des jeux de mot les plus utilisés, nous allons donc partir de la base de données SIRENE que l’on peut trouver sur Datagouv.

 

Celle-ci comporte l’ensemble des entreprises françaises. Afin que le workflow reste téléchargeable, je vous fournis ici une version déjà filtrée sur les salons de coiffure.

 

Il s’agira d’ailleurs de notre première tâche sur ce workflow : Filtrer sur les salons de coiffure dont le code activité est 96.02. On utilisera donc un filtre comme ceci :

 

EmmanuelL_2-1677597431921.png

 

 

La base de données SIRENE contient énormément de valeurs null avec des salons dont le nom n’est pas renseigné. On va donc filtrer et enlever ces valeurs null :

 

EmmanuelL_3-1677597432004.png

 

On va ensuite chercher les jeux de mots. Pour cela, on va créer un filtre « custom » qui ne retiendra que les Salons qui comporte les mots « TIF », « HAIR » ou « TETE » :

 

EmmanuelL_4-1677597432010.png

 

Afin de compter nos salons, on ajoutera ensuite un RecordID (pour attribuer une clé unique à chaque salon) et avec un select, on va prendre juste nos colonnes RecordID et le nom du salon :

 

EmmanuelL_5-1677597432014.png

 

 

On va ensuite nettoyer nos noms de salons, afin de pouvoir mettre « nouvelle Hair », « nouvelle’Hair » et « NouvelleHair » comme étant le même jeu de mot. Pour cela, on supprimera la ponctuation, les espaces et on mettra tout en majuscule :

 

EmmanuelL_6-1677597432037.png

 

 

Reste maintenant un problème : Comment détecter et rapprocher les jeux de mot s très semblable comme « Imaginhair » et ImagineHair » ? Pour les identifier et les corriger, on utilisera un Fuzzy match, afin de comparer les noms de salon :

 

EmmanuelL_7-1677597432067.png

 

 

On va ainsi disposer d’une liste de noms de salon à corriger :

 

EmmanuelL_8-1677597432079.png

 

Pour automatiser nos corrections, on va utiliser un « Text input » et mettre les noms de salon à harmoniser :

 

EmmanuelL_9-1677597432088.png

 

 

Ce remplacement se fera ensuite au moyen d’un « Find Replace » :

 

EmmanuelL_10-1677597432111.png

 

 

On utilisera ensuite un summarize pour compter le nombre de salon par jeux de mot :

 

EmmanuelL_11-1677597432134.png

 

 

On utilisera enfin un sort et un sample pour classer par nombre de jeux de mots et établir le top 100 :

 

 

EmmanuelL_12-1677597432141.png

 

Le résultat ? Notre grand gagnant est « HAIRDUTEMPS » avec 190 salons, suivi de « NOUVELHAIR » (108 salons ) et « CREATIF » (83 salons)

 

EmmanuelL_13-1677597432156.png

 

Je dois avouer que j’adore me perdre dans ces données, voici donc un florilège de mes noms de salon préféré que j’ai repéré :

  • THAIRTHAIR (Record ID 3210)
  • TWEETHAIR (Record ID 3284)
  • PARTOUTATIF (Un fan d’Asterix repéré avec Alteryx au Record ID 2862)
  • LHOMMEDAFHAIR (RECORD ID 2528)
  • HAIRFRANCE (Pour voyage au Record ID 1914)
  • BUTTHAIRFLY (Grivoiserie repérée au Record ID 1221)
  • CEDATIF (Record ID 1260)

N’hésitez pas à indiquer en commentaires ceux que j’aurais raté. 

 

ezgif-2-dc3dc698fd.gif

 

Étiquettes