Community Spring Cleaning week is here! Join your fellow Maveryx in digging through your old posts and marking comments on them as solved. Learn more here!
Free Trial

Blog

Les analyses et les idées des plus grands esprits de l'analyse.
TIPS de la semaine

Chaque semaine, découvrez de nouvelles astuces et bonnes pratiques pour devenir un expert !

Voir l'index
StephV
Alteryx Alumni (Retired)

IS Banner.png

 

À mesure que le paysage des données évolue, les besoins des entreprises en termes d'analyses se font de plus en plus complexes. Historiquement, les nouvelles techniques de Data Science étaient réservées à quelques privilégiés, non seulement experts en programmation, mais aussi profondément investis dans les statistiques. Mais cette époque est révolue ! Alteryx Intelligence Suite permet de mettre des outils d'analyse avancée à la disposition de chaque utilisateur Alteryx intéressé. Cette suite logicielle apporte la puissance du machine learning prédictif et du traitement du langage naturel à toutes les entreprises désireuses de révéler le potentiel de leurs données avec Alteryx.

 

Pour la première version d'Alteryx Intelligence Suite, nous avons choisi de nous concentrer sur deux des défis les plus courants que rencontrent aujourd'hui les entreprises en matière de Data Science :

 

1 - Les données ne se limitent plus aux seules feuilles de calcul. Les entreprises avisées ont des images, des PDF et d'autres contenus de texte qu'elles peuvent exploiter. Grâce aux fonctionnalités de traitement automatique du langage d'Intelligence Suite, nous leur offrons de toutes nouvelles perspectives en matière d'analyse. Commentaires sur les réseaux sociaux, documents juridiques, e-mails d'assistance et autres : tous renferment une mine de données qui, dans de nombreuses entreprises, n'a jamais été entièrement exploitée. Ces modules de base, ou blocs de construction, vous permettent d'accéder à ce type de données dans Alteryx, de les préparer pour l'analyse, puis d'explorer les sujets et thèmes du texte et de visualiser vos résultats pour mieux comprendre qui se cache derrière ces données.

 

2 - Pour réussir aujourd'hui, il faut avoir deux longueurs d'avance. La planification des activités n'a jamais été aussi complexe que maintenant. Votre entreprise doit disposer de tous les avantages concurrentiels possibles. Elle doit adopter une vision plus claire de ce qui, à l'avenir, est susceptible d'assurer ou de compromettre sa pérennité. Avec les fonctionnalités de machine learning d'Intelligence Suite, nous nous penchons sur la façon dont les entreprises utilisent les données pour créer des modèles destinés aux prévisions et à l'interprétation.

 

Les décisions à prendre dans chaque domaine d'activité reposent souvent sur des données incomplètes. La modélisation prédictive vous permet de vous appuyer sur des tendances observées dans le passé pour en déduire les évolutions futures. Intelligence Suite fournit aux utilisateurs des blocs de construction qui permettent de répondre à ce type de questions, en les guidant dans les complexités de ce processus.

 

Alteryx Intelligence Suite est conçue pour accompagner les entreprises à tous les stades de leur parcours analytique. Cette solution fournit tous les outils nécessaires aux analystes débutants ou aux structures qui viennent tout juste d'adopter l'analytique avancée. Les choix opérés via nos blocs de construction en glisser-déposer et nos étapes guidées reposent sur les meilleures techniques de Data Science à travers des bibliothèques open source reconnues telles que scikit-learn et XGBoost. Pour les utilisateurs confirmés, les blocs de construction permettent de configurer et de personnaliser totalement ces bibliothèques intégrées dans l'environnement Alteryx.

 

La modélisation assistée aide les utilisateurs à résoudre leurs problèmes de prévision concernant, par exemple, les clients les plus susceptibles de partir ou les chances qu'un événement intéressant se produise. Au fur et à mesure que l'entreprise gagne en maturité, des modèles peuvent être déployés via Alteryx Promote ou Alteryx Server pour la production. Au besoin, ces modèles peuvent être convertis à tout moment en code Python brut avant d'être transmis à d'autres Data Scientists ou déployés dans un écosystème cloud.

 

Qu'il soit utilisé à des fins de prototypage ou de production, le processus reste transparent, ce qui permet aux analystes métier et aux Citizen Data Scientists de travailler en équipe. Les mêmes fonctionnalités avancées de Data Science s'appliquent à nos blocs de traitement automatique du langage. Ceux-ci s'appuient sur des bibliothèques telles que Tesseract, VADER et scikit-learn, de sorte que les utilisateurs bénéficient des meilleures fonctionnalités disponibles sur le marché, tout cela avec la facilité d'utilisation d'Alteryx.

 

Le traitement automatique du langage dans Intelligence Suite

J'aimerais vous parler de certaines des fonctionnalités remarquables de notre groupe d'outils de traitement automatique du langage. Ce groupe d'outils permet d'exploiter facilement du texte dans Alteryx depuis n'importe quel format, notamment PDF et image, grâce à la reconnaissance optique de caractères. À elle seule, cette fonctionnalité permet aux utilisateurs d'apporter des données dans Alteryx d'une façon totalement inédite. Néanmoins, une fois les données obtenues, le groupe d'outils de traitement automatique du langage fournit également des blocs de construction qui permettent de manipuler et de traiter ces données d'une manière encore plus aboutie.

 

Préparation du texte avant l'analyse

Dans ces outils, vous disposez d'un bloc de construction dédié à la préparation des données de texte à analyser, qui effectue ce que l'on appelle une « lemmatisation ». En clair, cette approche permet de prendre les différentes formes des mots pour les ramener à leur composante grammaticale de base. Par exemple, « suis »/« sont »/« est » deviennent tous « être », et « chat »/« chats »/« du chat »/« chats » simplement « chat ». Cette étape est essentielle pour un bon traitement du texte afin de généraliser de grands morceaux de texte complexes en une structure sous-jacente simple.

Avec Intelligence Suite, il suffit de faire glisser un bloc de construction sur l'espace de travail de Designer et de cliquer pour obtenir la configuration souhaitée.

 

la configuration du bloc de construction pour le traitement préalable du texte assure la préparation des données de texte par lemmatisation, filtrage et suppression d'une liste personnalisée de chaînes.la configuration du bloc de construction pour le traitement préalable du texte assure la préparation des données de texte par lemmatisation, filtrage et suppression d'une liste personnalisée de chaînes.

 

Social Listening

L'exploitation du Web social a permis aux entreprises de connaître l'impact de leurs produits presque en temps réel, d'une manière inédite. En effet, les tweets peuvent être collectés et classés comme étant positifs, neutres ou négatifs. Il est également possible de suivre quotidiennement le ratio de commentaires « positifs/négatifs » pour prendre le pouls du Web. Cela dit, pour définir le ressenti que renferme un tweet et répéter ce processus à grande échelle, il fallait auparavant se plonger dans des lignes de code. Grâce à notre bloc de construction dédié à l'analyse du ressenti client sans code, c'est désormais un jeu d'enfant.

En utilisant un workflow ultra-simple reposant sur Intelligence Suite, vous disposez d'un moyen efficace pour analyser des tonnes de tweets !

 

Grâce à l'outil d'analyse du ressenti client, les utilisateurs peuvent obtenir des sorties comme celle-ci pour suivre la tendance positive/négative globale de grands blocs de texte au fil du temps.Grâce à l'outil d'analyse du ressenti client, les utilisateurs peuvent obtenir des sorties comme celle-ci pour suivre la tendance positive/négative globale de grands blocs de texte au fil du temps.

 

 

Modélisation de thèmes

Michael Jordan, avec David Blei et Andrew Ng, est l'un des principaux auteurs de l'article qui présente l'allocation de Dirichlet latente (ou LDA), la recherche qui sert de base dans le domaine de la modélisation de thèmes. Bien entendu, Michael Jordan n'est pas l'ancienne star de la NBA ayant eu une brève carrière de joueur de baseball en ligue mineure dans l'équipe des White Sox de Chicago. Imaginez cependant que vous ayez deux énormes blocs de texte sur cette star de la NBA et sur l'expert du machine learning de l'Université de Californie à Berkley. Comment les différencier ?

Eh bien, la répartition des mots dans ces documents serait probablement bien différente.

 

La modélisation de thèmes examine ces répartitions en constatant que certains mots peuvent être communs aux deux blocs, mais qu'ils se retrouvent probablement aussi dans d'autres schémas uniques. Appliquer la modélisation de thèmes à ces textes vous permettrait d'annoter tous vos documents avec des thèmes comme « Basketball » ou « Machine Learning ». Vous pourriez également découvrir d'autres thèmes tels que « Sneakers » ou « Space Jam », susceptibles de vous aider à mieux organiser, explorer ou agréger vos textes. On peut alors facilement s'imaginer que des entreprises disposant de très nombreux documents texte commencent à exploiter cette technologie.

 

Dans le cadre de mon doctorat, j'ai eu la chance d'apprendre la modélisation de thèmes auprès de John Lafferty, un auteur qui travaille avec David Blei. Mettre cette technologie à la portée de chaque utilisateur, quel que soit son parcours universitaire ou professionnel, représente pour moi un projet intéressant et passionnant qui contribue à la démocratisation de la Data Science. Ainsi, au lieu de me démener pour faire fonctionner des lignes de code basées sur des modèles mathématiques sous-jacents complexes, je peux faire glisser et déposer des outils dans Alteryx et commencer à explorer rapidement les thèmes de n'importe quel ensemble de documents.

 

La modélisation de thèmes permet aux utilisateurs d'explorer les termes et les thèmes généraux de leur texte via une interaction visuelle.La modélisation de thèmes permet aux utilisateurs d'explorer les termes et les thèmes généraux de leur texte via une interaction visuelle.

 

Visualisation des résultats

Le groupe d'outils de traitement automatique du langage vous permet de former des nuages de mots à partir de vos résultats afin d'obtenir une représentation graphique de votre analyse, avec des filtres et des options pour rendre le tout très attrayant. Voici, par exemple, notre nuage de mots pour la Data Science, en forme de nuage.

 

 

 

Picture5.png

Le Machine Learning avec Alteryx Intelligence Suite

Il nous serait impossible de passer en revue toutes les nouvelles fonctionnalités de machine learning d'Alteryx. J'aimerais plutôt vous présenter certaines de mes fonctionnalités préférées qui figurent dans le nouveau groupe d'outils de machine learning.

 

Transparence et maîtrise totale

Le bloc de construction dédié à la modélisation assistée permet aux humains de se tenir informés grâce au machine learning. Ce bloc établit un profilage des données pour faire les meilleures suggestions possibles en fonction de plusieurs heuristiques et meilleures pratiques, mais personne ne connaît vos données mieux que vous ! Contrairement à d'autres solutions qui fonctionnent comme une boîte noire, la modélisation assistée indique sur quoireposent ses recommandations et leur niveau de certitude, tout en vous permettant de passer outre ses choix.

 

Dans le volet Détails (à droite), les utilisateurs peuvent voir précisément comment la modélisation assistée établit ses recommandations et explorer les données par eux-mêmes.Dans le volet Détails (à droite), les utilisateurs peuvent voir précisément comment la modélisation assistée établit ses recommandations et explorer les données par eux-mêmes.

 

Importance des variables

Il n'est pas facile de choisir les bonnes données pour un modèle. Si vous ne faites pas attention, certaines données risquent d'être incluses accidentellement dans vos données d'entraînement alors que par la suite elles ne seront pas disponibles pour le modèle. C'est ce qu'on appelle souvent « perte de données » et ce phénomène peut entraîner des résultats tronqués ou l'échec total des modèles en environnement de production.

D'un autre côté, comme nous ne savons pas toujours quelles données sont importantes pour une tâche, nous utilisons tout ce que nous avons sous la main. C'est généralement la meilleure approche agnostique. Toutefois, cela peut ralentir le processus de modélisation et compliquer les algorithmes en les rendant moins performants qu'ils le seraient autrement.

 

La modélisation assistée fait appel à deux techniques (l'impureté Gini et le tau de Goodman-Kruskal) pour identifier le meilleur ensemble de variables à utiliser afin de générer efficacement un modèle de bonne qualité sans biais.

 

La modélisation assistée détermine l'utilité des prédicteurs à l'aide de deux méthodes décrites dans le volet Détails (à droite). Tout prédicteur suspecté d'être trop positif ou de manquer de pertinence sera signalé à l'écran et transmis à l'utilisateur pour être retiré de l'analyse.La modélisation assistée détermine l'utilité des prédicteurs à l'aide de deux méthodes décrites dans le volet Détails (à droite). Tout prédicteur suspecté d'être trop positif ou de manquer de pertinence sera signalé à l'écran et transmis à l'utilisateur pour être retiré de l'analyse.

 

Explorations et classement

Dans le machine learning, mon théorème préféré est probablement celui du « déjeuner gratuit » (No Free Lunch Theorem). En gros, il signifie qu'il n'existe aucun moyen de savoir quel algorithme de modélisation sera le plus approprié pour un ensemble de données particulier. Si XGBoost semble être le mieux adapté pour un ensemble de données, un modèle linéaire simple pourrait bien fonctionner pour un autre. La seule solution que nous avons à proposer, c'est d'exécuter plusieurs modèles sur les données d’entraînement et de déterminer de manière empirique celui qui fonctionne le mieux.

 

Ce classement de la fonction de modélisation assistée nous donne cette possibilité avec plusieurs modèles optimisés qui fonctionnent en parallèle en tenant compte des contraintes de votre ordinateur.

 

Le classement fourni par la modélisation assistée permet aux utilisateurs de comparer les modèles en fonction de plusieurs paramètres et de se plonger dans l'interprétation et la configuration de chacun d'eux.Le classement fourni par la modélisation assistée permet aux utilisateurs de comparer les modèles en fonction de plusieurs paramètres et de se plonger dans l'interprétation et la configuration de chacun d'eux.

 

Amélioration des compétences

Pour de nombreux analystes, le meilleur atout de la modélisation assistée est qu'elle vous permet de mieux maîtriser le machine learning en vous donnant la possibilité de voir ce que vous faites, que ce soit grâce à une représentation graphique ou à du code dépouillé. Vous êtes guidé minutieusement dans tout le processus de modélisation, avec des explications sur ce qui se passe et pourquoi. Vous disposez également d'un glossaire détaillé qui définit la méthodologie et les termes utilisés dans un langage simple.

Il vous suffit de cliquer sur les options par défaut ou, à mesure que vous acquérez de l'expérience, de commencer à expérimenter par vous-même la Data Science. Avec de la pratique, vous pourrez ignorer le « mode assisté » pour vous concentrer sur la création de modèles directement dans l'espace de travail. Enfin, vous pourrez convertir votre modèle en code Python brut afin d'utiliser l'interface graphique pour modéliser, puis observer et modifier directement dans le code ce que vous avez pu créer grâce à la modélisation guidée.

 

Que vous soyez débutant ou expert, la modélisation assistée vous aide à assembler ou à créer des prototypes, puis à partager ou à explorer des modèles sous leur forme Python native, afin de boucler la boucle en passant des blocs de construction au code exécutable.

 

 

L'option d'exportation du modèle en Python permet aux utilisateurs d'afficher le code d'un modèle dans l'outil Python d'Alteryx.L'option d'exportation du modèle en Python permet aux utilisateurs d'afficher le code d'un modèle dans l'outil Python d'Alteryx.

 

StephJ_8-1595402713157.png

 

Mes derniers mots

Je suis impatient de voir toutes les solutions que vous trouverez grâce aux blocs de construction d'Alteryx Intelligence Suite !

Contactez votre chargé de compte pour expérimenter dès aujourd'hui Alteryx Intelligence Suite, disponible dans Designer 2020.2, et commencer à utiliser et à démocratiser la Data Science au sein de votre entreprise.

 

 

*Cet article a été écrit par @sadovsky et publié sur la communauté anglaise. 

Étiquettes