Free Trial

Blog - Deutsch

Erkenntnisse und Ideen von den besten Analytics-Experten.
StephV
Alteryx Alumni (Retired)

Wir freuen uns, mit der Veröffentlichung von Version 2021.1 eine neue, umfassende Funktion für automatisiertes Machine Learning in Alteryx Intelligence Suite ankündigen zu können: Feature Engineering. Automatisiertes Feature Engineering sorgt dafür, dass Unternehmen qualitativ hochwertige Machine-Learning-Modelle schneller entwickeln und sich dabei auf den geschäftlichen Nutzen von Modellen konzentrieren können.

 

Feature Engineering wird in der Regel definiert als Prozess zur Erstellung neuer Spalten (oder Features) aus Rohdaten mithilfe verschiedener Techniken. Es wird allgemein als Schlüsselfaktor für den Erfolg von Data-Science-Projekten angesehen. Das Erstellen aussagekräftiger Features ist eine Herausforderung. Es erfordert viel Zeit und häufig auch Programmierkenntnisse. Die neuen Möglichkeiten zum Feature Engineering in Alteryx Intelligence Suite gestalten diesen Prozess für Data Scientists und Analysten einfach und schnell – selbst für Benutzer mit wenig Erfahrung.

 

Mit Feature Engineering beginnen wir ein neues Kapitel in der Analyse.

 

Egal, welche Art von Analyse man beginnt: In der Regel ist die Erfassung der Daten, die typischerweise in ungleichen Datenquellen in Rohform vorliegen, der schwierigste Teil. Analysten verwenden normalerweise Alteryx oder eine Sprache wie SQL, um die Daten zu aggregieren und Felder für die Analyse zu generieren.

 

Stellen Sie sich vor, wir arbeiten für einen Einzelhändler und haben ein festes Produktsortiment, das wir verkaufen:

StephJ_0-1613643992703.png

 

 

Ein Kunde kauft nun einen Satz Produkte in einer bestimmten Transaktion:

StephJ_1-1613643992706.png

 

 

Jeder Transaktion ist dabei ein Datum zugeordnet:

StephJ_2-1613643992707.png

 

 

Zudem haben wir Informationen zu allen Kunden in unserer Datenbank:

StephJ_3-1613643992708.png

 

 

Nehmen wir an, die Unternehmensführung fragt: „Welche Kunden werden im kommenden Jahr die meisten Transaktionen durchführen?“. Mit Alteryx Intelligence Suite kann diese Frage mit ein paar einfachen Schritten beantwortet werden. 

 

Zunächst müssen Sie den Datentyp für jede der Rohtabellen korrekt einstellen und die Feldgrößen für die nachgeschaltete Analyse optimieren. Dazu verwenden wir das Auto Field-Tool in Designer und das neue Feature Types-Tool in der Alteryx Intelligence Suite.

StephJ_4-1613643992712.png

 

 

Das Feature Types-Tool führt die „semantische Datentypisierung“ durch, wodurch der Basisdatentyp in einen realen Kontext eingefügt wird. Beispielsweise kann ein Feld für die Postleitzahl als Integer-Datentyp gespeichert werden, doch die semantische Datentypisierung kann dieses Integer-Feld als Postleitzahl-Datentyp einordnen, um das Feld beim Feature Engineering besser nutzen zu können.

 

Im Konfigurationsbereich der Feature Types können wir unter „Change Type“ (Typ ändern) die Option „Autodetect“ (Automatisch erkennen) verwenden. Das Tool analysiert dann jede Spalte und versucht, automatisch zu erkennen, was das Feld wirklich bedeutet. Sie können den Ausgabetyp nach Bedarf manuell ändern. Durch die korrekte Auswahl des Ausgabetyps (semantischer Typ) wird die Qualität der Features verbessert, die im nächsten Schritt generiert werden.

 

StephJ_5-1613643992716.png

 

 

Nachdem wir unsere Datentypen festgelegt haben, werden alle unsere Daten an das Build Features-Tool („Features erstellen“) weitergegeben. Das Build Features-Tool kann mehr als einen Strom Eingabedaten aufnehmen, und der aussagekräftige Name, der jeder Datenverbindung zugewiesen wird, hilft uns dabei, die Datenreferenz im Konfigurationsbereich zu verfolgen.

 

StephJ_6-1613643992725.png

 

 

Mit dem Build Features-Tool definieren wir die Beziehungen zwischen unseren Daten. Build Features funktioniert am besten, wenn sich Daten in Dritte Normalform befinden. Dort gibt es einige Tabellen, die über bestimmte Beziehungen miteinander verbunden werden können.

 

In diesem Beispiel ist unsere Zieltabelle Kunden. Auf Grundlage der drei definierten Beziehungen werden die Daten aus allen Tabellen auf Kundenebene aggregiert.

 

StephJ_7-1613643992733.png

 

Beachten Sie, wie das Build Features-Tool unsere Kundentransaktionen (customer_transactions) und Transaktionsdaten automatisch aggregiert. Wir sehen hier, wie viele Transaktionen jeder Kunde getätigt hat und wie viele Artikel er insgesamt bei allen Transaktionen gekauft hat.

 

StephJ_8-1613643992734.png

 

 

Praktisch! Aber wie ist das passiert? Sehen wir uns die Spalte COUNT(customer_transactions) an. Beachten Sie, wie wir definiert haben, dass die Kundentabelle und die Tabelle customer_transactions durch die Spalte customerID verknüpft sind.

 

StephJ_9-1613643992736.png

 

 

Anschließend sehen wir uns das Feld InvoiceNo an, den Primärschlüssel für Kundentransaktionen. Für jeden Kunden zählen wir jede einzelne Rechnung in der Tabelle. Daher können wir für den Kunden 12346 eine Anzahl von zwei Transaktionen in der fertigen Tabelle zurückgeben.

 

StephJ_10-1613643992737.png

 

 

Sie fragen sich möglicherweise, wie und warum Build Features die zusätzlichen Felder COUNT und SUM erstellt. Dies sind zwei neue Features, die mithilfe der von uns festgelegten Konfiguration auf der Registerkarte Manage Primitives („Primitive verwalten“) des Build Features-Tools erstellt wurden. Jedes „Primitiv“ ist eine Methode zur Erstellung neuer Features. Sie können bis zu fünf Primitive auswählen. (Diese Begrenzung soll verhindern, dass das Build Features-Tool zu viele Features erstellt, da sich dies negativ auf die Leistung auswirken kann.)

 

StephJ_11-1613643992740.png

 

In diesem Beispiel werden insgesamt 22 neue Features durch Auswahl der Primitive Median, Max, Sum, Std und Count generiert. Diese neuen Features können zusätzliche Informationen zu Transaktionen in unserem Geschäft liefern, die nicht in den Rohdaten enthalten waren, und sie können nützlich sein, um das zukünftige Kundenverhalten vorherzusagen.

 

Das Erstellen von Features (auch als Feature Engineering bezeichnet) erfolgt traditionell durch das Schreiben von komplexem SQL-Code, was viele Stunden an Experimentieren und Iterationen nach sich zieht. Mit dem neuen Build Features-Tool in Alteryx Intelligence Suite können Sie neue Features schnell berechnen, indem Sie lediglich einige Beziehungen definieren! Das ist die Magie des automatischen Feature Engineerings.

 

StephJ_12-1613643992750.png

 

 

Dank der neuen Tools Feature Types und Build Features haben wir neue, aussagekräftige Features generiert, mit denen wir ein besseres Prognosemodell entwickeln können, das umsetzbare Erkenntnisse für bessere Geschäftsergebnisse liefert. Wir hoffen, dass Ihnen diese neuen Innovationen in Version 2021.1 gefallen!

 

Viel Erfolg bei der Problemlösung!

 

 

 

*Der Beitrag "How to Use Automated Feature Engineering in Alteryx Intelligence Suite" wurde in Community Blog veröffentlicht und von Hwasu Kim @HwasuK geschrieben.

 

Beschriftungen