Free Trial

Blog - Deutsch

Erkenntnisse und Ideen von den besten Analytics-Experten.
StephV
Alteryx Alumni (Retired)

IS Banner.png

 

Mit der konstanten Weiterentwicklung der Datenlandschaft wird auch der Analysebedarf in Unternehmen zunehmen größer und komplexer. In der Vergangenheit war der Zugriff auf moderne Data-Science-Techniken wenigen Experten vorbehalten, die nicht nur über umfassende Programmierkenntnisse, sondern auch über fundiertes Wissen im Bereich der Statistik verfügten. Heute ist das anders. Die Alteryx Intelligence Suite demokratisiert selbst erweiterte Analysefunktionen, sodass sie jeder interessierte Alteryx-Anwender nutzen kann. Damit werden prädiktives Machine Learning und die Verarbeitung natürlicher Sprache für alle Unternehmen zugänglich, die mit Alteryx das Potenzial ihrer Daten freisetzen möchten.

 

In der ersten Version der Alteryx Intelligence Suite haben wir den Schwerpunkt auf die am häufigsten auftretenden Data-Science-Herausforderungen gesetzt, denen sich Unternehmen heute stellen müssen:

 

1- Daten sind nicht mehr auf Tabellenkalkulationen beschränkt. Datenbewusste Unternehmen ziehen Nutzen auch aus Bildern, PDF-Dateien und sonstigen Textdateien. Mit den Text-Mining-Funktionalitäten der Intelligence Suite ebnen wir Unternehmen einen völlig neuen Weg zu analytischen Fähigkeiten. Kommentare aus Social Media, juristische Dokumente, Support-E-Mails und andere Inhalte können einen wahren Schatz an Daten enthalten, den viele Unternehmen bislang nie voll ausgeschöpft haben. Aus solchen Inhalten können Sie Daten in Alteryx erfassen, für Analysen aufbereiten, die zugrundeliegenden Themen und Inhalte der Texte erkunden und die Ergebnisse schließlich visualisieren, um die Menschen hinter diesen Daten besser zu verstehen.

 

2 - Wer heute erfolgreich sein will, muss zwei Schritte Vorsprung haben. Und die Geschäftsplanung in der modernen Welt ist komplexer denn je. Ihr Unternehmen muss jeden Wettbewerbsvorteil nutzen und braucht dafür eine klare Perspektive, wie sich zukünftige Entwicklungen auf die Nachhaltigkeit des Unternehmens auswirken. Mit den Machine-Learning-Funktionalitäten in der Intelligence Suite geben wir Unternehmen die Möglichkeit, ihre Daten für die Erstellung von Prognose- und Interpretationsmodellen zu nutzen. In allen Geschäftsbereichen kommt es häufig vor, dass Entscheidungen auf der Grundlage unvollständiger Daten getroffen werden müssen. Mit prädiktiven Modellen können Sie aus Mustern, die Sie in der Vergangenheit beobachtet haben, Schlüsse für zukünftige Entwicklungen ziehen. Die Intelligence Suite enthält Module, mit denen diese Fragen beantwortet werden können, und die geführte Benutzeroberfläche leitet Anwender durch die damit verbundenen, komplexen Prozesse.

 

Die Alteryx Intelligence Suite eignet sich für Unternehmen in jeder Phase der Entwicklung ihrer Analysetätigkeit. Ob für Einsteiger in die Analyse oder für Unternehmen, die gerade mit der Nutzung erweiterter Analysen begonnen haben: Die Intelligence Suite bietet alles, was Sie benötigen, um auf Ihrem Analyseweg voranzukommen. Dabei können Sie sich darauf verlassen, dass die Entscheidungen, die Sie mithilfe unserer Drag-and-Drop-Module und Bildschirmanleitungen treffen, durch erstklassige Data Science aus renommierten Open-Source-Bibliotheken wie scikit-learn und XGBoost gestützt werden. Für fortgeschrittene Anwender bieten die Module Möglichkeiten zur erweiterten Konfiguration und Anpassung dieser in die Alteryx-Umgebung integrierten Bibliotheken.

 

Nutzer können damit beginnen, prädiktive Probleme zu lösen, wie zum Beispiel eine Rangliste der Kunden aufstellen, die wahrscheinlich abwandern werden, oder mithilfe der assistierten Modellierung prognostizieren, mit welcher Wahrscheinlichkeit ein bestimmtes Ereignis eintritt. Mit zunehmender Reife im Unternehmen können die Modelle über Alteryx Promote oder Alteryx Server für die Produktion bereitgestellt werden. Bei Bedarf können die Modelle außerdem jederzeit in rohen Python-Code übersetzt werden, um sie anderen Data Scientists zur Verfügung zu stellen oder in einem Cloud-System bereitzustellen.

 

Alle Prozesse sind transparent, egal, ob für das Prototyping oder die Produktion, sodass Geschäftsanalysten und externe Data Scientists zusammenarbeiten können. Dieselben erstklassigen Data-Science-Funktionen bieten auch unsere Text-Mining-Module. Sie stützen sich auf Bibliotheken wie Tesseract, VADER und scikit-learn. Damit erhalten Anwender Zugriff auf die besten Funktionalitäten, die auf dem Markt verfügbar sind, und das mit der Benutzerfreundlichkeit von Alteryx.

 

Text-Mining-Fähigkeiten in der Intelligence Suite

Ich möchte Ihnen gerne einige der spannenden Funktionalitäten unseres Text-Mining-Toolsets vorstellen. Seine Kernfunktion besteht darin, Texte beliebiger Formate mithilfe optischer Zeichenerkennung in Alteryx zu erfassen, einschließlich Text aus PDF-Dateien und Bildern. Diese Funktion allein bietet Nutzern bereits diverse Möglichkeiten für den Datenimport in Alteryx. Nachdem die Daten erfasst wurden, bietet das Text-Mining-Toolset darüber hinaus Module zu ihrer weiteren Bearbeitung und Weiterverarbeitung.

 

Text für Analysen vorbereiten

Das Toolset enthält ein spezifisches Modul zur Aufbereitung von Textdaten für Analysen durch „Lemmatisierung“. Einfach ausgedrückt, können damit verschiedene Wortvarianten auf ihre grammatikalischen Grundformen zurückgeführt werden. Zum Beispiel werden „bin/ist/sind“ zu „sein“ oder „Hause/Hauses/Häuser“ zur Grundform „Haus“. Beim erweiterten Lernen mit Text ist dieser Schritt sehr wichtig, um auch umfassende, komplexe Textpassagen in die zugrundeliegende Struktur aufzuschlüsseln.

Mit der Intelligence Suite ist diese Aufgabe schnell erledigt. Ziehen Sie einfach ein Modul per Drag-and-Drop in den Designer-Arbeitsbereich und konfigurieren Sie es mit wenigen Klicks entsprechend Ihrem Bedarf.

 

Die Textvorverarbeitungs-Modulkonfiguration ermöglicht die Vorbereitung von Textdaten durch Lemmatisierung, Filterung und Entfernung einer benutzerdefinierten Liste von Zeichenfolgen.Die Textvorverarbeitungs-Modulkonfiguration ermöglicht die Vorbereitung von Textdaten durch Lemmatisierung, Filterung und Entfernung einer benutzerdefinierten Liste von Zeichenfolgen.

 

 

Social Listening

Datenerfassung aus sozialen Medien ist eine innovative Methode, mit der Unternehmen die Wirkung ihrer Produkte nahezu in Echtzeit beobachten können. Zum Beispiel können Tweets erfasst und als positiv, neutral oder negativ eingestuft werden. So können Unternehmen täglich das Verhältnis zwischen positiven und negativen Kommentaren als Messwert erfassen, um die Reaktionen im Web zu ermitteln. Um die Stimmung eines Tweets zu definieren – und das in großem Maßstab zu tun –, brauchte man früher jemanden, der sich tief in den Code einarbeiten konnte. Dank unseres codefreien Moduls zur Sentiment-Analyse ist dies nun sehr einfach geworden.

Mit einem leicht verständlichen Workflow, der die Kapazität der Intelligence Suite nutzt, können Sie große Mengen von Tweets effizient analysieren!

 

Mit dem Tool zur Sentiment-Analyse können Anwender Ausgaben wie die hier abgebildete erstellen, um die allgemeine Positivität/Negativität großer Textkörper im Verlauf der Zeit zu verfolgen.Mit dem Tool zur Sentiment-Analyse können Anwender Ausgaben wie die hier abgebildete erstellen, um die allgemeine Positivität/Negativität großer Textkörper im Verlauf der Zeit zu verfolgen.

 

 

Themenmodellierung

Michael Jordan ist, gemeinsam mit David Blei und Andrew Ng, einer der Hauptautoren des Fachartikels, in dem die Forschungsarbeit zur Latent Dirichlet Allocation als Grundlage der Themenmodellierung vorgestellt wird. Wie Sie sich wahrscheinlich denken können, sprechen wir hier nicht von dem gleichnamigen 14-fachen NBA All-Star- und kurzzeitigen Minor-League-Spieler meines Lieblings-Basketballteams Chicago White Sox. Aber stellen Sie sich einfach mal vor, Sie haben zwei lange Texte, von denen einer von dem Basketball-Star und der andere von dem Machine-Learning-Star der University of California handelt. Wie könnten Sie diese zwei Artikel voneinander unterschieden?

 

Nun, die Wortverteilung in den beiden Dokumenten wird sich wahrscheinlich stark unterscheiden. Bei der Themenmodellierung, oder auch „Topic Modeling“, wird genau diese Verteilung erfasst. Dabei kann festgestellt werden, dass manche Wörter zwar in beiden Texten vorkommen, aber nach eindeutigen Mustern wahrscheinlich nur in einem Dokument gemeinsam auftreten. Mithilfe der Themenmodellierung von Texten können Sie alle Ihre Dokumente bestimmten Themen zuordnen, wie zum Beispiel „Basketball“ und „Machine Learning“. Darüber hinaus könnten Sie aber auch noch andere Themen, wie „Sneaker“ oder „Space Jam“ ermitteln, die hilfreich sind, um die Texte noch detaillierter zu organisieren, zu durchsuchen oder zusammenzufassen. Sie können sich sicher denken, wie nützlich diese Technologie für Unternehmen sein kann, die Berge von Textdokumenten verwalten.

 

Ich persönlich hatte das Privileg, die Themenmodellierung im Rahmen meiner Promotion direkt von John Lafferty, einem Co-Autor von David Blei, zu lernen. Diese Technologie für alle Anwender mit beliebigen akademischen und praktischen Vorkenntnissen nutzbar zu machen, ist mir ein persönliches Anliegen und ein wichtiger Vorstoß auf dem Weg zur Demokratisierung von Data Science. Anstatt mir den Kopf über Code zu zerbrechen, der nach den zugrundeliegenden mathematischen Modellen funktioniert, kann ich nun einfach per Drag-and-Drop Tools in Alteryx nutzen und schnell die Themen beliebiger Dokumente ermitteln.

 

Mithilfe der Themenmodellierung können Anwender über eine visuelle Interaktion ermitteln, wie Begriffe und Themen in ihren Texten vorkommen.Mithilfe der Themenmodellierung können Anwender über eine visuelle Interaktion ermitteln, wie Begriffe und Themen in ihren Texten vorkommen.

 

 

Den Output visualisieren

Mit dem Text-Mining-Toolset können Sie aus dem Output zur grafischen Darstellung Ihrer Analyse Wortwolken erstellen und diese mit verschiedenen Filtern und Optionen ansprechend gestalten. Nachstehend sehen Sie zum Beispiel unsere Data-Science-Wortwolke in Form einer tatsächlichen Wolke.

 

Texte können über das Wortwolke-Tool visualisiert werden, das in der Lage ist, ein anderes Bild als Vorlage zu verwenden.Texte können über das Wortwolke-Tool visualisiert werden, das in der Lage ist, ein anderes Bild als Vorlage zu verwenden.Picture5.png

 

 

 

 


Machine Learning mit der Alteryx Intelligence Suite

Alle neuen Machine-Learning-Funktionen zu beschreiben, würde den Rahmen dieses Beitrags sprengen, daher möchte ich mich auf einige meiner bevorzugten Features des neuen Machine-Learning-Toolsets konzentrieren.

 

Vollständige Transparenz und Kontrolle

Das Modul Assisted Modeling synchronisiert den maschinellen Lernprozess mit unserem menschlichen Wissen. So gut die Technologie auch Daten profilieren mag, um auf der Grundlage umfassender heuristischer Berechnungen und bewährter Verfahren bestmögliche Empfehlungen zu geben: Niemand kennt Ihre Daten so gut wie Sie selbst. Im Unterschied zu Blackbox-Lösungen wird bei der assistierten Modellierung angezeigt, warum sie bestimmte Empfehlungen gibt und mit welcher Gewissheit. Dabei haben Sie die Möglichkeit, diese Entscheidungen jederzeit zu überschreiben.

 

Über das Fenster „Details“ (rechts) sieht der Anwender, wie Assisted Modeling Empfehlungen erzeugt, und kann die Daten selbst untersuchen.Über das Fenster „Details“ (rechts) sieht der Anwender, wie Assisted Modeling Empfehlungen erzeugt, und kann die Daten selbst untersuchen.

 

 

Wichtigkeit von Eigenschaften

Oft ist es nicht einfach, für ein Modell die richtigen Daten auszuwählen. So könnte es zum Beispiel passieren, dass Sie versehentlich Daten in Ihren Trainingsbestand aufnehmen, die zu einem späteren Zeitpunkt für das Modell nicht mehr zur Verfügung stehen. Dieser auch als „Data Leakage“ bezeichnete Umstand kann dazu führen, dass Modelle in der Produktion komplett ausfallen oder nur suboptimale Ergebnisse erzeugen. Andererseits wissen wir oft nicht, welche Daten für ein bestimmtes Vorhaben wichtig sind, und nehmen einfach alles auf, was verfügbar ist. Dies ist häufig der beste agnostische Ansatz. Allerdings kann er den Modellierungsprozess verlangsamen und Algorithmen verkomplizieren, wodurch sie weniger effizient arbeiten, als unter anderen Voraussetzungen.

 

Assisted Modeling nutzt die zwei Techniken Gini Impurity und Goodman-Kruskal Tau, um den optimalen Satz von Funktionen zu ermitteln, mit dem auf effiziente Weise ein objektives, hochwertiges Modell generiert werden kann.

 

Assisted Modeling prüft die Nützlichkeit von Prädiktoren mithilfe der zwei Methoden, die im Detail-Fenster (rechts) angegeben sind. Jeder Prädiktor, der mutmaßlich zu gut ist oder dem es an Wert mangelt, wird hervorgehoben und an den Benutzer eskaliert, damit er von der Analyse ausgeschlossen wird.Assisted Modeling prüft die Nützlichkeit von Prädiktoren mithilfe der zwei Methoden, die im Detail-Fenster (rechts) angegeben sind. Jeder Prädiktor, der mutmaßlich zu gut ist oder dem es an Wert mangelt, wird hervorgehoben und an den Benutzer eskaliert, damit er von der Analyse ausgeschlossen wird.

 

Ranglisten-Analyse

Vielleicht mein Lieblings-Theorem im gesamten Bereich des Machine Learning ist das „No Free Lunch-Theorem“. Grob umschrieben sagt es aus, dass wir niemals wissen, welcher Modellierungsalgorithmus für einen bestimmten Datenbestand der richtige ist. Während für einen Datenbestand XGBoost optimal sein kann, funktioniert bei einem anderen möglicherweise das einfache Linear-Modell besser. Die einzige Möglichkeit, dieses Problem zu lösen, besteht darin, mehrere Modelle an Trainingsdaten auszuprobieren und empirisch zu ermitteln, welches am besten funktioniert.

Auf der Seite „Rangliste“ in der assistierten Modellierung können Sie genau dies tun und, im Rahmen der Kapazitäten Ihres Computers, verschiedene, für den Parallellauf optimierte Modelle gleichzeitig ausführen.

 

Anhand der Rangliste in der assistierten Modellierung können Anwender die Modelle auf der Grundlage verschiedener Parameter vergleichen und daraus Schlüsse für die Interpretation und Konfiguration jedes einzelnen Modells ziehen.Anhand der Rangliste in der assistierten Modellierung können Anwender die Modelle auf der Grundlage verschiedener Parameter vergleichen und daraus Schlüsse für die Interpretation und Konfiguration jedes einzelnen Modells ziehen.

 

 

Weiterbildung

Was viele Analysten an Assisted Modeling am meisten schätzen werden, ist die Möglichkeit, sich in Machine Learning einzuarbeiten, aber auch, dass die Arbeit grafisch oder als reiner Code angezeigt werden kann. Die Funktion führt Sie zuverlässig durch den Modellierungsprozess und erläutert dabei, was gerade ausgeführt wird und warum. Gleichzeitig bietet es ein detailliertes Glossar, in dem die Begriffe und die Methodik in leicht verständlicher Sprache erklärt werden. Sie können einfach mit den Standardoptionen beginnen. Und wenn Sie später etwas Erfahrung gesammelt haben, experimentieren Sie selbst und bringen Sie Ihre eigene „Wissenschaft“ in die Data Science ein. Wenn Sie genug Übung haben, können Sie auf den „assistierten Modus“ auch komplett verzichten und Ihre Modelle direkt im Arbeitsbereich selbst erstellen. Und schließlich können Sie Ihr Modell in Python-Code konvertieren, wobei Sie die grafische Oberfläche zum Modellieren verwenden und dann im Code sehen und bearbeiten können, was Ihre geführte Modellierungserfahrung erzeugt hat.

 

Ob Sie Einsteiger sind oder bereits Erfahrung haben: Assisted Modeling hilft Ihnen, Modelle in ihrer nativen Python-Darstellung zu erstellen oder zu prototypisieren und schließlich gemeinsam zu nutzen oder zu erforschen, und vervollständigt so den Weg von Modulen zum ausführbaren Code.

 

Mit der Funktion „Export Model to Python“ kann im Alteryx Python-Tool der einem Modell zugrundeliegende Code angezeigt werden.Mit der Funktion „Export Model to Python“ kann im Alteryx Python-Tool der einem Modell zugrundeliegende Code angezeigt werden.

 

 

Zum Abschluss

Ich bin schon gespannt, was für Lösungen Sie mit den Modulen der Alteryx Intelligence Suite entwickeln werden!

Bitte wenden Sie sich an Ihren Ansprechpartner bei Alteryx, um die Alteryx Intelligence Suite auszuprobieren, die in Designer 2020.2 verfügbar ist, und beginnen Sie mit der Erstellung und Demokratisierung von Data Science in Ihrem Unternehmen.

 

 

*Der Beitrag "Unleashing Advanced Analytics with the Alteryx Intelligence Suite" wurde in Community Blog veröffentlicht und von @sadovsky geschrieben.

Beschriftungen