Free Trial

Base de Connaissance

Apprenez auprès des experts.
TIPS de la semaine

Chaque semaine, découvrez de nouvelles astuces et bonnes pratiques pour devenir un expert !

Voir l'index
L'outil de jointure est l'outil par excellence pour mélanger des données dans Alteryx. Il s’agit donc de l’un des outils les plus utilisé. L'outil Jointure vous permet de joindre des données à partir de deux sources différentes et de deux manières différentes : par position d'enregistrement et par champs spécifiques.
Afficher l'article complet
Dépendances de workflow En tant qu'analystes Alteryx, nous sommes en train de fouetter la perspicacité à des vitesses fulgurantes. Workflow après workflow, outil après outil, nous sommes brillants compréhension fonctionnelle à partir de bandes inertes de données qui nous habilitent à prendre de meilleures décisions. La bonne perspicacité est seulement aussi bonne qu'elle est partageable, cependant, et pour permettre le meilleur partage n'importe quel analyste de Alteryx peut tirer profit de leurs dépendances de workflow pour simplifier des dépendances de chemin d'entrée ou de sortie dans des workflows partagés. Accédez à votre menu dépendances de workflow via Options > Options avancées > dépendances de workflow Dépendances de workflow: dépendances de workflow «groupe par dépendance»: «afficher les outils individuels» Dans les options > options avancées > les dépendances de workflow, le menu affiche toutes les références de chemin d'accès dans votre workflow, par dépendance ou par outil individuel, et vous permet de les modifier universellement en un seul clic à l'une des trois normes couramment utilisées: Tous les relatifs: modifie toutes les dépendances de fichier en un chemin d'accès relatif à l'emplacement du Workflow Tout absolu: change toutes les dépendances de fichier en un chemin absolu vers l'emplacement du fichier All UNC: modifie toutes les dépendances de fichiers à une convention d'affectation de noms uniforme; tous les lecteurs mappés sont renommés dans une ressource réseau Notez comment dans chaque configuration, seules quelques-unes des références de chemin d'accès sont en mesure de mettre à jour à chaque norme respective, par exemple comment l'option "All UNC" laisse les chemins inchangés parce qu'il n'y a qu'une seule référence de fichier réseau et il est déjà au format UNC. De même, le fichier de sortie avec la référence% Temp% à une variable d'environnement (contrôle configuration/Système et propriétés Security/System/System > les variables d'environnement avancées > ...) reste inchangée dans toutes les configurations car il s'agit d'un système global variable qui est par défaut à la plupart des machines. Les outils auxquels les dépendances de workflow s'appliquent La gestion de vos dépendances de workflow est une pratique optimale pour le partage en raison de la fréquence que les références de chemin d'accès deviennent rompues lors de l'envoi de workflows entre les analystes, le partage sur la galerie ou la planification des workflows. La raison en est que la plupart des références de chemin d'accès sont effectuées spécifiques au système sur lequel un workflow a été créé, avant que le workflow ne soit déplacé vers un autre emplacement. Comprendre l'accessibilité de ces fichiers d'entrée/sortie avec l'emplacement final du workflow et s'assurer que les références à ces fichiers ne se rompent pas après le partage (c'est-à-dire si je suis le chemin de référence puis-je toujours trouver le fichier de l'environnement Ce workflow "vit" sur?) est une considération importante dans le développement de Workflow. En consultant le menu dépendances de workflow et en utilisant la gestion des actifs, cependant, vous aurez sur votre chemin à la mise en place de grands réseaux de perspicacité partagée qui aura votre organisation de travail plus intelligent que jamais! Assurez-vous de vérifier les dépendances de workflow jointes. pdf ou Alteryx aide pour plus d'informations sur les dépendances de workflow et comment les exploiter au mieux dans vos environnements de partage! En tant qu'analystes Alteryx, nous sommes en train de fouetter la perspicacité à des vitesses fulgurantes. Workflow après workflow, outil après outil, nous sommes brillants compréhension fonctionnelle à partir de bandes inertes de données qui nous habilitent à prendre de meilleures décisions. La bonne perspicacité est seulement aussi bonne qu'elle est partageable, cependant, et pour permettre le meilleur partage n'importe quel analyste de Alteryx peut tirer profit de leurs dépendances de workflow pour simplifier des dépendances de chemin d'entrée ou de sortie dans des workflows partagés. Meilleures pratiques
Afficher l'article complet
Grattage Web Grattage Web, le processus d'extraction de l'information (généralement en tableaux) à partir de sites Web, est une approche extrêmement utile pour recueillir encore des données hébergées sur le Web qui n'est pas fourni via les API. Dans de nombreux cas, si les données que vous recherchez sont autonomes ou capturées complètement sur une page (pas besoin de requêtes API dynamiques), il est encore plus rapide que le développement de connexions API directes à collecter. Avec la richesse des données déjà fournies sur des sites Web, l'accès facile à ces données peut être un grand supplément à vos analyses pour fournir le contexte ou juste fournir les données sous-jacentes pour poser de nouvelles questions. Bien qu'il existe une poignée d'approches de grattage Web (deux détaillées sur notre communauté, ici et ici), il ya un certain nombre de grands, libres, outils (parsehub et import.IO pour n'en nommer que quelques-uns) en ligne qui peut rationaliser vos efforts de grattage Web. Cet article détaille une approche que je trouve être particulièrement facile, en utilisant Import.IO pour créer un extracteur spécifique à vos sites Web désirés, et l'intégration des appels à eux dans votre flux de travail via un lien API de requête en direct qu'ils fournissent par le biais du service. Vous pouvez le faire en quelques étapes rapides: 1. Accédez à leur page d'accueil, https://www.Import.IO/, et «inscrivez-vous» dans le coin supérieur droit: 2. Une fois que vous êtes inscrit à l'utilisation du service, accédez à votre tableau de bord (un lien peut être trouvé dans le même coin de la page d'accueil une fois connecté) pour gérer vos extracteurs. 3. Cliquez sur "nouvel extracteur" dans le coin supérieur gauche et collez l'URL qui contient les données que vous essayez de gratter dans le "créer Extractor" pop up. Depuis la saison de dessin fantasy football est juste devant nous, nous allons aller de l'avant et l'utilisation comme un exemple de données compilées par les meilleurs buteurs de l'année dernière fourni par ESPN afin que vous ne finissent pas comme ce gars-là (Merci plus tard). Nous savons que nos utilisateurs vont dur et les enjeux sont probablement assez élevés, nous voulons donc vouloir obtenir ce droit la première fois, et en utilisant une approche qui est assez reproductible pour nous fournir les informations nécessaires pour nous garder parmi les équipes de haut chaque année. 4. Après quelques instants, import.IO aura gratté toutes les données de la page Web et vous l'affichera dans leur «vue de données». Ici, vous pouvez ajouter, supprimer ou renommer des colonnes dans la table en sélectionnant des éléments sur la page Web – il s'agit d'une étape facultative qui peut vous aider à affiner votre dataset avant de générer votre URL de requête Live API pour le transfert, vous pouvez tout aussi facilement effectuer la plupart de ces opérations dans t Il designer. Pour mon exemple, j'ai renommé les colonnes pour refléter les noms de statistiques sur ESPN et a ajouté le "misc TD" champ qui a échappé à l'algorithme de grattage. 5. Une fois que vos données sont prêtes à l'importation, cliquez sur le bouton rouge "Done" dans le coin supérieur droit. Vous serez redirigé vers votre tableau de bord où vous pouvez maintenant voir l'extracteur que vous avez créé dans la dernière étape-Sélectionnez cet extracteur et recherchez la pièce de puzzle "intégrer" l'onglet juste au-dessous du nom de l'extracteur dans votre vue. Vous pouvez copier et coller l'"API de requête en direct" (il ya aussi une option pour télécharger un fichier CSV de vos données) énumérés ici dans une fenêtre de navigateur pour copier la réponse JSON qui contient vos données, ou vous pouvez mettre en œuvre un appel à elle directement dans votre workflow en utilisant l'outil de téléchargement (n'oubliez pas de sélectionner "coder l'URL" comme vous spécifiez le champ URL): Voilà! Vous devez maintenant avoir une API de requête en direct intégrée pour votre page Web, et avec un extracteur qui peut être exploité pour ratisser des données à partir de ce site si vous voulez essayer d'autres pages ainsi. Si vous souhaitez en savoir plus sur l'approche, ou sur la façon de le personnaliser avec des scripts externes, essayez la communauté Import.IO. L'échantillon que j'ai utilisé ci-dessus est attaché ici dans la version 10.5 de workflow yxmd, il vous suffit de mettre à jour l'API de requête en direct avec un spécifique à votre compte, extracteur et URL de page Web. Si vous décidez de lui donner un essai avec l'exemple ci-dessus, soyez sûr de nous faire savoir si nous avons aidé votre équipe fantastique gagner gros! 10,5
Afficher l'article complet
Comment l'outil Jointure fonctionne et pourquoi vous pourriez obtenir plus d'enregistrements que prévu Tandis que l'outil Jointure est facilement l'un des outils les plus utilisés dans Alteryx, il peut également être l'un des plus mal compris. Cela est encore plus probable si un nouvel utilisateur n'a jamais utilisé des fonctions "joindre" dans autre plate-formes de manipulation de données ou il se joint à de grandes tables où il ne surveille pas la trace des enregistrements à l'intérieur des champs auxquels il se joint. Ainsi, je vais couvrir trois cas différents que vous serez probable à rencontrer qui vous montrera comment joindre deux tables en utilisant un champ commun. Le workflow que je vais couvrir (ci-joint dans cet article) est un workflow que j'ai fait en 10,5 et contient les mêmes visuels qui sont ci-dessous. Cas #1: Joindre par champs qui ont tous les deux des enregistrements uniques C'est le cas le plus simple et le plus facile à comprendre. Dans ce cas, nous faisons une "Jointure" par les champs nommés «fruit» dans les deux entrées. La jointure alignera les enregistrements des deux tables si les enregistrements dans les champs "fruit" correspondent. Ainsi, la table jointe attendue (sortie J) devrait ressembler à ceci: Assez simple Cas #2: Joindre par champs où un seul a des enregistrements uniques Pour ce cas, nous avons deux enregistrements pour "Banana" dans notre entrée gauche. Cela signifie que l'enregistrement avec "Banana" dans l'entrée de droite correspondra deux fois et sera ajouté aux deux enregistrements de l'entrée gauche. Notre Sortie devrait ressembler à ceci: Cas #3: Joindre par champs qui ont tous les deux des enregistrements non uniques Celui-ci peut être le plus difficile à comprendre, mais j'espère que, après avoir regardé cela visuellement et mathématiquement vous comprendrez pourquoi cela fait sens et ce que vous pouvez faire pour éviter les enregistrements indésirables. Dans ce cas, nous avons deux enregistrements de «fruits» qui ont tous les deux «banane» dans les deux tableaux. La même chose se passe ici, tout comme le cas ci-dessus, sauf maintenant, il arrive deux fois parce que nous avons deux enregistrements de l'entrée droite qui correspondent à deux enregistrements de l'entrée de gauche. Ainsi, notre production aura un total de 4 enregistrements qui contiendront le mot «banane». La sortie devrait ressembler à ceci: Pour examiner cela mathématiquement pour le cas #3 et le cas #2, vous saurez combien d'enregistrements vous obtiendrez pour chaque instance d'enregistrement en multipliant la quantité d'enregistrements qui apparaissent dans les deux tables. Dans l'exemple ci-dessus puisque nous faisons une "Jointure" sur "fruit" et nous voyons l'enregistrement "banana" deux fois dans les deux tables, vous pouvez le considérer comme 2 bananes x 2 bananes = 4 bananes. Si nous ajoutons une autre rangée sur notre entrée droite comme ça: Nous aurons maintenant 3 x 2 donc nous devrions nous attendre 6 combinaisons d'enregistrements avec "Banana" dans le champ "fruit" Si vous avez joint deux tables et vous recevez beaucoup plus d'enregistrements, alors que vous vous attendiez pas, ceci est probablement la cause de votre problème. Si on ne comprend pas les cas présentés ci-dessus ,cela pourrait certainement rendre quel qu'un fou. Pour les meilleures pratiques, si j'étais vous, je suivrais ces deux étapes avant de joindre toutes autres tables: première: Vérifiez vos tables pour des enregistrements en double. Pour le cas ci-dessus, comme nous avons trois doublons qui viennent de notre entrée droite, nous pouvons simplement utiliser l'outil Unique et se débarrasser de ces doublons. La sortie sera exactement la même sortie que la sortie de cas #2 comme il n'y aura qu'un seul enregistrement de "Banana" après l'outil Unique. 2ème: Regardez si la "Joindre sur plusieurs champs" est l'option la plus appropriée. Exemple: nous avons la table 1 avec deux enregistrements contenant « Banana » pour « fruit » et deux enregistrements contenant « X » pour « Store ID » avec « FruitID » correspondant à « fruit ». Le tableau 2 a les mêmes champs « fruit » et « Store ID », sauf que maintenant nous avons un champ « Store employees » qui s'associe au « Store ID ». Tableau 1 tableau 2 Nous voulons que toutes ces données soient réunies pour qu'ils se correspondent correctement. Idéalement, nous ne devrions avoir que quatre enregistrements sortent de notre "jointure" comme nous voulons obtenir les "Store Employees" et "FruitID" champs dans une table. Par contre, si nous devions joindre à un seul champ commun, que ce soit "Store ID" ou "Fruit", nous obtiendrions des combinaisons et les données ne seraient pas alignées correctement. Voir ci-dessous. Joindre sur "Fruit" Dans ce cas, nous obtenons deux enregistrements où nos "Store ID" ne correspondent pas. Joindre sur "StoreID" Dans ce cas, nous obtenons deux enregistrements où nos "Fruits" ne correspondent pas. Pour corriger cela, nous allons configurer notre "Jointure" pour correspondre sur les champs "Fruits" et "Store ID" Après avoir Exécuté, la table jointe devrait ressembler à ceci: Lors de "jointure" avec plusieurs champs, nous nous assurons que les enregistrements de ces deux champs correspondent avant de "Joindre". Un moyen facile de penser à cela est d'imaginer que "Fruits" et "Store ID" se font fusionner ensemble. Maintenant, nous avons des enregistrements uniques parce que nous aurions Banana X et Banana Y comme deux entités uniques et notre jointure va maintenant devenir un enregistrement 1 X enregistrement joint 1. 10,5
Afficher l'article complet
La macro cache DataSet v2 Vous pouvez télécharger la macro cache DataSet v2 à partir de la Alteryx Analytics Gallery (dans le district de macros) ici. Pourquoi la mise à jour? L'année dernière, j'ai fait un outil qui m'a permis de créer des «points d'enregistrement» dans mes workflows, et d'éviter de perdre du temps à exécuter l'intégralité du workflow après avoir effectué des modifications incrémentielles. Beaucoup de gens ont répondu à un billet de blog que j'ai écrit à ce sujet, et quelques grandes suggestions est sorti de cette discussion. Un utilisateur a même fait sa propre version mise à jour de la macro, parce qu'il voulait être en mesure de spécifier où les fichiers ont été enregistrés par la macro. C'était vraiment génial, et m'a inspiré à mettre en œuvre certaines des autres suggestions des utilisateurs avaient et partager la macro mise à jour du cache DataSet avec vous les gars ici. Merci à @ErikB de partager sa mise à jour avec moi! Espérons que cela devienne une tendance-si vous vous sentez comme une fonctionnalité est manquant, n'ayez pas peur de commencer à piquer autour des entrailles d'une macro et de faire vos propres changements et de les partager. Cela est bon pour tout le monde parce que cela signifie que nous pouvons faire de meilleurs outils ensemble par la collaboration, mais c'est aussi une excellente occasion d'apprendre de nouveaux modèles et astuces dans Alteryx. Qu'est-ce qui est différent dans cette version? Cette mise à jour est vraiment tout au sujet de la gestion du stockage et du nettoyage des fichiers mis en cache. Dans la version précédente de l'outil, tous les fichiers mis en cache seraient sauvegardés à l'endroit où la macro elle-même vivait. Mais ce n'était pas toujours souhaitable, et si vous l'utilisez beaucoup, vous pourriez vous retrouver avec un grand dossier de fichiers comme ceci: Donc, nous allons jeter un oeil à ce qui est nouveau dans la configuration de l'outil pour traiter ce problème: Pour la plupart, le premier onglet devrait paraître assez familier (et si non, revenir à la poste d'origine pour voir comment il fonctionne), mais il ya trois nouvelles options sous "Write mode" qui vous permettent de spécifier combien de temps vous voulez que les fichiers mis en cache à vivre. Si vous sélectionnez la première option ("Delete après l'arrêt de Alteryx"), les fichiers mis en cache seront écrits dans le répertoire Temp (et en lecture) du Alteryx, qui sera automatiquement effacé lors de la fermeture de Alteryx. Toutefois, si vous sélectionnez la deuxième option, les fichiers seront supprimés après un nombre de jours spécifié. Ceci est déclenché par l'exécution de la macro, donc si vous l'utilisez une fois et plus jamais, alors qu'un fichier mis en cache ne sera pas supprimé. Mais si vous utilisez l'outil régulièrement, alors il va effacer les anciens fichiers. (pour ce faire, la macro maintient un index des emplacements où les fichiers mis en cache ont été créés, puis à chaque fois qu'il est utilisé dans un workflow, il recherche les fichiers mis en cache dans les répertoires qui ont une date d'expiration qui est passée à échéance et les supprime.) (dans une version future, je peux regarder dans l'automatisation de ce avec schtasks.) Enfin, vous avez la possibilité de ne jamais supprimer un fichier mis en cache. (c'est ainsi que l'outil utilisé pour fonctionner.) L'onglet Options avancées Ici, vous pouvez indiquer à la macro où enregistrer les fichiers mis en cache. La première option ("default") va indiquer à la macro d'enregistrer dans un dossier dédié cached_datasets dans le répertoire AppData spécifique à l'utilisateur. Toutefois, si l'option "supprimer après l'arrêt de Alteryx" est sélectionnée dans l'onglet précédent, le fichier sera écrit (et lu à partir de) le répertoire Temp à la place. La deuxième option ("workflow Directory") indique à la macro d'enregistrer les fichiers dans le même répertoire que le workflow dans lequel vous avez inséré la macro cache DataSet v2. Enfin, si vous ne souhaitez pas que la macro vérifie les fichiers mis en cache périmés et les supprime, cochez la dernière option de cet onglet. Voilà. Profiter! Et de garder les commentaires à venir (et bien sûr, vos propres variations)! Teaser Je suis excité de dire que la fonctionnalité de mise en cache va être officiellement intégré dans le produit dans une version future d'une manière très élégante et rationalisée! (certains d'entre vous ont peut-être ramassé sur ce sujet dans le fil des suggestions de produits ici.) J'ai eu le plaisir d'être impliqué dans certaines des discussions de conception initiale autour de la nouvelle fonctionnalité, et je pense sincèrement que ça va être totalement jeu-changer à la façon dont nous développons des workflows dans Alteryx. (c'est tout ce que je peux partager à ce point, mais fera de mon mieux pour fournir des mises à jour comme ils deviennent disponibles!) : smileyvery-Happy: Cette mise à jour de la macro de DataSet de cache inclut des options pour gérer le stockage et le nettoyage des fichiers mis en cache. Cache
Afficher l'article complet
Comparaison de données de deux datasets L'intégrité des données fait référence à l'exactitude et à la cohérence des données stockées dans une base de données, un entrepôt de données, un Data Mart ou une autre construction, et c'est un élément fondamental de tout workflow analytique. Dans Alteryx, la création d'une macro pour comparer les valeurs attendues à des valeurs réelles dans vos données est assez simple et fournit une vérification de contrôle de qualité avant de produire un rapport visuel. Je vais te montrer comment construire ça. Les deux entrées représentent les valeurs réelles et attendues dans vos données. Ces flux de données sont passés par un outil d'ID d'enregistrement pour conserver l'intégrité de la position, puis transmis à l'outil transpose pour créer deux colonnes. La première colonne contient les noms de champs et la deuxième colonne affiche les valeurs dans chaque champ. Ces données sont ensuite transmises à une jointure, correspondant à l'ID d'enregistrement et au nom du champ, afin de comparer chaque valeur. Enfin, si les données ne correspondent pas à la réalité attendue, un message personnalisé apparaît dans les messages de résultats alertant l'utilisateur où l'incompatibilité s'est produite dans le DataSet. L'image ci-dessous montre le message d'erreur produit si les valeurs diffèrent entre les datasets. Tony Moses Représentant du service à la clientèle Données
Afficher l'article complet
REST API en 5 minutes-pas de codage Se connecter à une API REST de l'intérieur Alteryx est une grande habileté à avoir. Cependant, la documentation de l'API peut être difficile à naviguer, et déterminer où placer les en-têtes requis, les chaînes de requête et les charges utiles peuvent devenir confus. Pour montrer à quel point il peut être simple, nous allons essayer de récupérer des données boursières de quand, une ressource en ligne pour les jeux de données gratuits et Premium, en 5 minutes ou moins. Nous allons utiliser le Guide de démarrage rapide de l'API, réglez votre minuterie ... 1. Configuration de l'environnement Ouvrez un nouveau workflow, ajoutez un outil d'entrée de texte avec une colonne intitulée «URL» et connectez un outil de téléchargement à sa sortie. 2. URL de demande L'exemple dans le Guide de démarrage rapide nous montre ce qu'est une URL devrait ressembler à une demande de données boursières Facebook, nous allons donc ajouter que la valeur de la «URL» de champ dans l'outil d'entrée de texte. https://www.quandl.com/api/v3/datasets/WIKI/FB/data.csv Cela va fonctionner pour l'instant, mais à l'avenir, nous pouvons envisager de fractionner les morceaux distincts de l'URL de la demande dans des champs uniques, et la compilation de la chaîne à l'aide de l'outil de formule, de sorte que le même Workflow peut être utilisé pour télécharger de nombreux datasets différents. Vous pouvez également remarquer le fichier .csv à la fin de la chaîne de demande, ce qui indique que nous voulons que la demande de données soit retournée au format .csv, mais nous pourrions également spécifier JSON ou .XML en fonction de la documentation quand. 3. Authentification Sur la base du Guide de démarrage rapide, les demandes doivent être authentifiées avec une clé API. Allez-y et inscrivez-vous pour une clé. Ajoutez un autre champ à l'outil d'entrée de texte, nommez le champ api_key et ajoutez votre clé comme valeur pour ce champ. La configuration de l'outil d'entrée de texte doit ressembler à ceci: 4. Configuration de l'outil de téléchargement Onglet de base Sélectionnez votre champ URL à partir de la liste déroulante pour l'URL, toutes les autres configurations de base peuvent rester les mêmes. En-têtes Paramètres par défaut Charge La méthode http sera la sélection par défaut,'get (ou FTP)'. La case d'option «composer la chaîne de requête» doit être sélectionnée. Une chaîne de requête est ce qui vient après le point d'interrogation dans le chemin d'URL. Dans la liste des champs disponibles, sélectionnez le champ contenant votre clé API. Connexion Paramètres par défaut 5. Exécution du Workflow Ajoutez un outil de navigation à la fin ou ajoutez un outil de données de sortie si vous souhaitez enregistrer le DataSet. Exécutez le workflow et l'outil de téléchargement ajoutera deux champs à votre workflow, télécharger des en-têtes et télécharger des données. Le champ de données de téléchargement aura les données de stock de Facebook au format de CSV. Réalisant que cela peut ne pas être le plus facile à lire, vous pouvez ajouter un texte à Columns Tool après cela pour analyser les données dans un format plus lisible. Bientôt, je vais prendre une plongée plus profonde dans les configurations de plusieurs outils de téléchargement, ainsi que ce qu'il faut rechercher dans la documentation de l'API. Anticipez la couverture sur d'autres rubriques avancées telles que le traitement de vos données de demande, la pagination de grands ensembles de résultats et d'autres méthodes d'authentification. Quelles questions avez-vous à propos de l'outil de téléchargement? Réglez votre minuterie ... API
Afficher l'article complet
La macro de DataSet de cache Vous pouvez télécharger la version la plus récente de la macro de DataSet de cache (v2) de la Alteryx Analytics Gallery et la lire ici. (vous pouvez également obtenir la version originale du DataSet de cache ici.) Une des grandes choses sur Alteryx est de savoir comment une fois que vous obtenez le coup de lui, vous êtes capable de manipuler des données presque aussi vite que vous pouvez penser à l'étape suivante dans votre processus. Vous finissez par passer moins de temps à jongler avec les mécanismes de mélange et d'analyse de vos données, et plus sur le problème réel de l'entreprise à portée de main. Vous obtenez dans un flux rythmique, cet état d'esprit où vous perdez la trace du monde extérieur tout en éclabousseant les accents de Regex et les faits saillants de la formule sur votre toile, et devenez un avec les données pour créer un chef-d'œuvre de travail. Mais lors de la construction d'un workflow qui traite de grandes quantités de données et/ou exécute des analyses de processeur lourde, vous pourriez trouver difficile d'entrer dans ce flux rythmique que vous êtes habitué quand vous devez attendre plusieurs minutes entre les pistes pour voir les résultats de l'ajout d'un outil ou un Groupe d'outils sur la toile. Une solution à cette limitation de votre flux est d'échantillonner toutes les données. Il y a plusieurs façons de le faire. L'un consiste à placer des outils d'échantillonnage stratégiquement tout au long de votre workflow. Une façon plus robuste et plus propre d'accomplir la même chose est de créer une constante utilisateur pour limiter le nombre d'enregistrements sur les outils d'entrée: Cliquez sur n'importe quel espace sur la toile, puis dans la fenêtre de configuration, accédez à l'onglet "workflow" Ajouter une nouvelle constante définie par l'utilisateur appelée "sample" et la définir à un nombre relativement faible, comme 1000 Dans le panneau de configuration de tous les outils d'entrée, définissez l'option "limiter l'enregistrement" à "% User. Sample%" (sans les guillemets) Développez votre workflow avec le nombre d'enregistrements d'entrée limitée, et lorsque vous êtes prêt à l'exécuter avec l'ensemble complet de données, il suffit de définir l'utilisateur constante définie "sample" pour être vide afin que les données ne sont pas plafonnés Le problème avec cette approche est que dans de nombreux cas, vous n'allez pas voir le comportement dont vous avez besoin pour construire votre workflow de manière appropriée. Mais que faire si vous pouviez "sauver votre place" et d'exécuter uniquement les nouveaux outils que vous avez ajouté à la toile, sans ré-exécuter tout le reste encore une fois? Eh bien, je vais vous montrer comment vous pouvez faire exactement cela-avec l'aide de la macro cache DataSet! Voici une démo rapide de la façon dont il fonctionne. Supposons que vous avez un workflow qui dispose de trois sources de données d'entrée qui ont chacune plus de cent millions de lignes. Vous les Nettoyez et faire un peu de traitement, et déjà cela commence à prendre plus de temps que vous souhaitez attendre avant d'ajouter l'outil suivant et de jouer avec la configuration. À ce stade, vous décidez d'arrêter de déconner et de couper à la poursuite avec la macro de DataSet de cache. Pour ce faire, vous devez d'abord placer les outils que vous avez terminé la configuration dans un conteneur d'outils. Vous ajoutez ensuite une macro de DataSet de cache au dernier outil du flux: Si vous n'êtes pas familier avec l'outil conteneur outil, vous pouvez le trouver dans la catégorie outil de documentation. Pour l'utiliser, il suffit de le placer sur la toile, puis de faire glisser une sélection d'outils en elle. Ensuite, vous devez configurer la macro de DataSet de cache, qui heureusement est très simple. Vous voudrez lui donner un nom unique et descriptif (si vous avez plusieurs macros de DataSet de cache sur votre toile, soyez sûr de leur donner chacun des noms différents!), et vous voudrez laisser le mode d'exécution réglé à «écrivent». Maintenant, lorsque vous exécutez le workflow, le Datastream étant alimenté dans la macro de DataSet de cache (dans ce cas, la sortie du deuxième outil de transposition) sera enregistrée en tant que fichier temporaire. (plus spécifiquement, il sera enregistré en tant que fichier de données Alteryx dans le même dossier que la macro de DataSet de cache lui-même.) Installation terminée! Nous allons accélérer notre workflow! Maintenant que nous avons la configuration du workflow pour utiliser la macro de DataSet de cache, nous allons le mettre à l'utilisation. Après avoir exécuté le workflow une fois avec la macro de DataSet de cache en mode "Write", vous pouvez l'activer en mode "Read" afin qu'il référence le fichier temporaire au lieu du flux d'entrée. Lorsque vous faites cela, vous verrez un indicateur d'erreur sur la macro de DataSet de cache vous indiquant qu'il est en "mode lecture". Ce n'est pas une erreur réelle, mais est destiné à être un indicateur visuel commode de sorte que lorsque vous commencez à construire un grand flux de travail avec de nombreuses macros de DataSet de cache, vous pouvez dire instantanément ceux qui sont mis à "Read" mode. Cela est important car cela signifie que l'entrée Datastream est ignorée, et si vous effectuez des modifications à un outil en amont, ces modifications ne passeront pas par la macro de DataSet de cache alors qu'elle est en mode «Read» puisqu'elle est lue à partir du DataSet temporaire enregistré au. Maintenant, lorsque vous exécutez le workflow à nouveau, au lieu de prendre quelques minutes, il finira de fonctionner presque instantanément! Vous pouvez maintenant continuer à créer votre workflow à partir de la macro de DataSet de cache. Lorsque vous avez votre configuration de workflow à votre goût, vous pouvez faire un clic droit sur les macros de jeu de données de cache et "supprimer et se connecter" pour se débarrasser d'eux sans perturber le flux des données, ou vous pouvez simplement placer la macro en "Bypass" mode, qui permettra le flux de données THRO ugh il intact comme si elle n'était même pas là. Retour dans le flux Une fois que vous commencez à utiliser la macro de jeu de données de cache, vous obtiendrez le coup de lui rapidement, et vous retrouverez de nouveau dans cette cannelure douce que vous êtes habituée, même lors de l'élaboration de certains lourds traitement intensive des ressources dans votre workflow. Espérons que vous trouverez la macro de jeu de données de cache pour être un ajout utile à votre boîte à outils qui vous permet d'obtenir plus de Alteryx. Si vous avez des questions, des commentaires, ou des commentaires, s'il vous plaît le partager dans la section commentaires ci-dessous, je l'apprécierais vraiment et je suis heureux de vous aider avec tous les problèmes que vous pourriez rencontrer. Une note rapide avant de se séparer: comme indiqué, cette macro écrit des datasets temporaires dans le dossier contenant la macro de DataSet de cache. Il se peut que vous souhaitiez supprimer occasionnellement les datasets dans ce dossier s'ils prennent beaucoup d'espace. À un certain point, j'ai l'intention de mettre à jour la macro pour inclure la logique pour le nettoyage de ces jeux de données temporaires, mais ce sera pour une autre fois. Quand je fais, je vais être sûr de lien vers la mise à jour ici. En attendant, c'est laissé à l'utilisateur. Après Pour conclure, je voulais montrer un exemple de ce qu'un workflow pourrait ressembler qui a été développé une section à la fois avec la macro de DataSet de cache. Dans la capture d'écran de workflow ci-dessous, j'ai eu trois grands ensembles de données que j'avais besoin de transformer et de normaliser avant de développer un modèle avec l'ensemble d'outils prédictifs Alteryx. C'était en fait ce problème très qui a été l'inspiration pour la macro de DataSet de cache. Sur le côté gauche se trouve le workflow final avec tous les conteneurs d'outils activés et les datasets de cache en mode "Write" (encerclé en rouge pour les rendre plus visibles), et sur la droite est le même Workflow avec les conteneurs désactivés et les macros de mise en cache mis en mode "Read". Shoutout à collègues ingénieur de contenu Neil Ryan, qui a également développé une macro de mise en cache avec la même fonctionnalité indépendamment, avant que je fasse. Je ne me sens pas juste en prenant le plein crédit pour cette solution à un problème commun que nous avons tous rencontré, quand Neil m'a battu au Punch. En dépit de la création fondamentalement la même chose, pour quelque raison que sa macro n'a pas eu autant de visibilité au sein de notre groupe, et en conséquence, je suis celui qui écrit ce billet de blog. C'est une véritable situation de Leibniz-Newton. Donc, si cela est bien reçu, je suis heureux de partager la gloire avec Neil. Mais si vous ne l'aimez pas, s'il vous plaît diriger votre colère et la déception envers Neil, puisque quand vous y pensez, c'était son idée d'abord. À: -10/12/2015: Une mise à jour mineure de la macro a été téléchargée afin qu'elle puisse être présente dans les workflows téléchargés dans la galerie en 10,0. Lorsqu'une macro est dotée d'un outil d'entrée et d'un outil de sortie qui pointe vers le même fichier, elle l'interprète comme un problème et indique que la validation a échoué. Cela se produit dans cette macro, puisque nous sommes à la fois la lecture et l'écriture à partir du fichier mis en cache temporaire, même si elle ne se produit jamais en même temps. Nous obtenons autour de ceci en pointant les outils d'entrée/sortie à différents noms de fichier d'espace réservé, et puisque les outils d'action mettent à jour le chemin en utilisant le nom spécifié par l'utilisateur dans la configuration, nous sommes bons pour aller. Gardez à l'esprit cependant, que si vous êtes en téléchargeant un workflow à la galerie qui utilise cette macro, vous serez OK si elle est réglée sur "Write" ou "Bypass" mode, mais se déroulera dans les problèmes si vous l'avez réglé sur "Read" mode! -10/14/2015: Ajout d'un lien pour télécharger la macro à partir de la galerie en haut de la page. -04/11/2016: Ajout d'un lien vers la macro cache DataSet V2 en haut de la page. Le développement de workflows à forte intensité de ressources peut être un défi lorsque les modifications de test impliquent l'exécution du workflow via des itérations qui peuvent prendre plusieurs minutes ou plus avant d'être en mesure de voir les résultats. Ce message parcourt l'utilisation de la macro de DataSet de cache pour développer des workflows d'une manière plus intelligente, éviter les temps de longue durée répétés et accélérer le processus de fusion et d'analyse de plus grandes séries de données. Cache
Afficher l'article complet
Étiquettes