Free Trial

Blog

Les analyses et les idées des plus grands esprits de l'analyse.
TIPS de la semaine

Chaque semaine, découvrez de nouvelles astuces et bonnes pratiques pour devenir un expert !

Voir l'index
itestu
Alteryx
Alteryx

Bonjour,

 

Aujourd'hui je vous propose de lire un fichier Word et de créer un nuage de mots basé sur le texte lu.

Dans mon exemple je lis un fichier qui présente Alteryx designer "Designer_Datasheet_2084_FR.docx" et je produis ce nuage de mots : 

wordcloud_alteryx.JPG

 

 

 

Pour construire ce workflow, je me suis basée sur 2 posts de la communauté : le premier m'a permis de "lire" (ou parser) un fichier Word, et le second m'a permis de produire un nuage de mots. 

 

Post #1 : lire un fichier Word (merci @ShaanM)

 

Post #2 : produire un nuage de mots (merci @KaneG

 

Ci-dessous un aperçu du workflow : 

 

itestu_0-1572528543070.png

 

  1. Dans une étape préliminaire, j'installe très facilement les librairies R nécessaires "officer" et "wordcloud" grâce à cet outil dont vous trouverez le processus détaillé ici.
  2. Ensuite dans un premier temps, je lis le fichier Word en entrée et je calcule la fréquence d'apparition de tous les mots.
  3. Dans un second temps, je définis la liste de mots que je ne souhaite pas voir apparaître dans mon nuage de mots (par exemple : pour, avec, depuis, etc.), puis je supprime ces mots de la liste avec un filtre.
  4. Pour terminer, je produis le nuage de mots avec ma liste de mots filtrée.

 

Comme vous l'aurez compris, c'est très simple !

 

Je vous fournis au travers de ce post les outils supplémentaires que j'ai créés à partir des 2 posts mentionnés ci-dessus qui vous permettront de facilement reproduire ce cas d'usage sur vos données. 

Pour le tester, il vous suffit de placer le fichier Word dans le même dossier où sera enregistré le workflow.

 

A vous de jouer !

 

Irène

Commentaires
Étiquettes