Alteryx Server wird immer beliebter; Analytics-Führungskräfte setzen Alteryx für immer größere Projekte, größere Datensätze und noch mehr Self-Service-Datenanalysefunktionen für Entscheidungsträger ein. Unternehmen von kleinen Einzelhändlern und Datenanbietern in Nischenbereichen bis hinzu Großunternehmen wie Southwest Airlines, Chic-fil-A und Western Union haben sich für ein Upgrade auf Alteryx Server entschieden, um die Produktivität ihrer Analysten zu steigern und fundiertere Entscheidungen zu treffen.
Als Branchenanalyst wissen Sie vermutlich bereits, dass Sie Analytics auf Unternehmensniveau benötigen, und haben sich Alteryx Server möglicherweise bereits angeschaut, um über die nächsten Schritte nachzudenken. Aktuell erhalten wir immer mehr Fragen nach Best Practices für die Bereitstellung und Skalierung von Alteryx Server, nach Governance-Themen und vielen weiteren Bereichen. Daher habe ich mich mit unseren führenden Alteryx-Server-Experten Kory Cunningham (Senior Product Manager für Alteryx Server) sowie Gary Schwartz und Steve Ahlgren (Development Leads für Alteryx Server) zusammengesetzt, um die am häufigsten gestellten Fragen zu beantworten. Hier ist das Feedback, welches wir vom Team erhalten haben.
Danke für Ihr Interesse,
Josh Howard, Sr. Product Marketing Manager
Was sind die herausragendsten und interessantesten Merkmale von Alteryx Server?
KORY CUNNINGHAM – Das ist keine einfache Auswahl, aber eine der überzeugendsten Funktionen ist die Möglichkeit zur Nutzung von Serverhardware, um Ihre Analytics in einer skalierbaren Umgebung für parallele Benutzer bereitzustellen. Alteryx Server kann in kleinen Boutique-Analytics-Firmen mit fünf Benutzern oder in multinationalen Unternehmen mit Hunderten von Benutzern bereitgestellt werden. Der zweite Punkt hängt mit der Planung zusammen. Im Planer können Sie die Ausführung von Workflows und Analyseprozessen für die Zukunft planen, um pünktlichere Berichte zu erstellen und Ihre Berichte auf automatisierte Weise täglich, wöchentlich oder monatlich ausführen. Der dritte Punkt ist die Gallery. Die Gallery ist eine Weboberfläche, in der Sie Alteryx-Workflows veröffentlichen und mit anderen Kollegen oder Unternehmensbenutzern teilen können. Diese Benutzer können dieselben Analysefunktionen verwenden, ohne Alteryx auf ihrem Desktop installieren zu müssen. Ein Benutzer vor Ort beim Kunden kann sich beispielsweise in einem Webbrowser anmelden, die Gallery öffnen und einen Bericht ohne Alteryx Designer ausführen. Die Gallery-Plattform enthält außerdem Tools für die Zusammenarbeit und eine Versionskontrolle für Workflows. Sie können die Objekte teilen, bearbeiten und die Änderungen nach Benutzername und Zeitpunkt nachverfolgen. All diese Funktionen sind Teil der Alteryx Server-Plattform.
Erzähl mir von den Bereitstellungskonfigurationen, die Alteryx Server unterstützt. Kann ich den Server in einer virtuellen Umgebung bereitstellen?
GARY SCHWARTZ – Wir verwenden einen Microsoft-Stapel, daher nutzen wir ausschließlich Windows. Wir unterstützen Windows Server 2008 R2 und neuere Versionen, und Sie finden die empfohlenen technischen Merkmale auf der entsprechenden Seite. Für die Bereitstellung empfehlen wir natürlich einen Bare-Metal-Server, aber Sie können den Server auch in virtualisierten Umgebungen ausführen. Unsere eigene Gallery wird beispielsweise in einer virtualisierten Amazon-Umgebung ausgeführt. Wir verwenden virtuelle Umgebungen zwar für Tests, aber die Server werden für diese Umgebungen nicht zertifiziert. Alteryx Server funktioniert also hervorragend in physischen und in virtuellen Umgebungen. Denken Sie beispielsweise an das Thema Ressourcenkonflikte auf einem physischen Computer. Wenn der Server auf einem physischen Computer zusammen mit vielen anderen Anwendungen ausgeführt wird, können Ressourcenkonflikte auftreten. Beachten Sie außerdem den Unterschied zwischen CPUs und vCPUs. In Amazon können Sie beispielsweise 4, 8 oder 16 CPUs auswählen. Dabei handelt es sich in Wirklichkeit jedoch um vCPUs, die jeweils eine halbe echte CPU abbilden, während unsere technischen Anforderungen von physischen CPUs ausgehen. Diesen Unterschied sollten Sie beachten.
Welche Authentifizierungsarten werden unterstützt? Ist SSO möglich?
KORY CUNNINGHAM – Die eigentliche Gallery unterstützt zwei wichtige Authentifizierungsarten. Einerseits haben wir die integrierte Authentifizierung, bei der sich die Benutzer mit einer E-Mail und einem Kennwort anmelden, entweder mit einem eigenen oder einem vom Administrator bereitgestellten Konto. Wir unterstützen jedoch auch Windows-Authentifizierung inklusive nativer Unterstützung für NTLM und Kerberos. Auf diese Weise können sich die Benutzer bei der Gallery mit denselben Anmeldeinformationen wie auf ihrem eigenen Computer anmelden, und Sie können Ihr vorhandenes Active Directory für Authentifizierung und Benutzerverwaltung für den Zugriff auf die Gallery verwenden. Mit 10.5 haben wir außerdem die Möglichkeit eingeführt, Workflows als Benutzer auszuführen. Mit dieser Funktion können die Benutzer einen Workflow mit ihren eigenen Anmeldeinformationen anstatt mit einem globalen Serveradmin-Konto ausführen und erhalten nur Zugang zu den Daten, für die ihnen Berechtigungen erteilt wurden.
Wie viele Benutzer oder Apps sind pro Bereitstellung möglich?
STEVE AHLGREN – Kurz gesagt unterstützen wir eine unbegrenzte Anzahl an Benutzern mit einer gewissen Obergrenze, und manche unserer Kunden haben Hunderte von Benutzern auf dem Alteryx Server. Anstelle der Anzahl der Benutzer macht es jedoch möglicherweise mehr Sinn, die Art und Anzahl der Apps zu betrachten, die verarbeitet werden können. Der Server skaliert praktischerweise linear, Sie können also weitere Ressourcen hinzufügen, um größere Lasten zu verarbeiten. Falls Sie Hardware oder virtuelle Hardware haben, können wir die jeweilige Instanz je nach erwarteter Last bis zur Kapazitätsgrenze ausfüllen. Die Anzahl der parallelen Benutzer ist begrenzt durch die von Ihrer internen oder Cloudinfrastruktur bereitgestellten Front-End-Dienste. Falls Sie ein Lastausgleichsmodul verwenden, können Sie unsere Lösung für die Verarbeitung von Front-End- und Back-End-Lasten skalieren.
Wie lässt sich Alteryx Server skalieren?
STEVE AHLGREN – Skalierbarkeit ist in den drei folgenden Szenarien wichtig, die ich hier nach Häufigkeit nenne:
Hinzufügen von Kapazität für die Verarbeitung von Workflows zu einer Serverinstanz. Diese Worker werden auch als Warteschlangen- und Render-Worker bezeichnet und laufen auf physischer oder virtueller Hardware, die Alteryx-Workflows verarbeitet bzw. Kartenkacheln rendert. Auf den Warteschlangen-Workern wird dieselbe Alteryx Engine ausgeführt wie auch im Alteryx Designer. Diese Elemente können auf zwei Arten skaliert werden: entweder horizontal, indem mehr physische oder virtuelle Worker zu einer Serverinstanz hinzugefügt werden, oder vertikal, indem mehr Workerkapazität oder mehr Hardware zu einem vorhandenen physischen Knoten hinzugefügt wird. Wir möchten betonen, dass der größte Leistungszuwachs durch horizontale Skalierung erzielt werden kann, indem Sie mehr physische Hardware und physische Worker zu einer vorhandenen Serverinstanz hinzufügen.
Bei der zweiten Methode skalieren wir die Back-End-Datenbank, in unserem Fall MongoDB. MongoDB bietet verschiedene Optionen für Skalierbarkeit, Redundanz und Leistung an. Eine dieser Optionen sind Replikatgruppen. MongoDB verwendet Replikatgruppen, um die Zuverlässigkeit und Redundanz der Daten zu verbessern, indem Daten an mehrere Orte gleichzeitig geschrieben werden, um sicherzustellen, dass jederzeit mindestens eine Kopie Ihrer Daten existiert. Wenn ein Knoten ausfällt, übernimmt ein anderer Knoten seinen Platz, und der Server läuft normalerweise weiter. Sie können Ihre Datenbank auch mit dem sogenannten Sharding skalieren. Sharding bietet mehr Leistung und ermöglicht die Nutzung kleinerer Laufwerksgrößen. Dieser Punkt ist wichtig, falls Sie virtuelle Hardware in einer Amazon-ähnlichen Infrastruktur verwenden.
Die dritte Skalierungsmöglichkeit hängt mit der Gallery zusammen. Die Gallery ist ein Front-End-Dienst, der Benutzeranfragen von Clients oder Webbrowsern verarbeitet. Diese Skalierungsart wird eher selten eingesetzt, da die entsprechende Ressource von der Art der Benutzer und Apps abhängt und eher selten zu einem Engpass wird. Im Bedarfsfall kann jedoch ein Lastenausgleichsmodul eingesetzt werden. In unserer eigenen Instanz der Alteryx Public Gallery haben wir alle drei dieser Skalierungsmethoden verwendet.
Welche Anforderungen gelten für Hardware und Netzwerk?
KORY CUNNINGHAM – Sie finden unsere komplette technische Dokumentation unter http://downloads.alteryx.com/, aber für eine normale Installation empfehlen wir einen Computer mit einer CPU und vier Prozessorkernen mit 2,5 GHz, sowie mindestens 16 GB RAM und ein Solid-State-Laufwerk (SSD). Das SSD-Laufwerk macht einen erheblichen Unterschied für die Lese- und Schreibgeschwindigkeit der Daten. Die Netzwerktopologie ist ebenfalls wichtig, da der Speicherort der Datensätze von ihr abhängt. Zum Beispiel, wenn Sie unsere Daten von Drittanbietern kaufen (z. B. Experian), dann können Sie diese Daten entweder auf dem gleichen Server wie die Serversoftware oder in einem Netzwerkspeicherort ablegen. Wenn Sie die Daten auf dem Server ablegen, erhalten Sie die beste Leistung, und die Daten sind so nahe wie möglich am Ausführungsmodul bzw. am Berechnungsraum. Sie können die Daten jedoch auch an einem Remote-Speicherort im Netzwerk ablegen. Dies ist hilfreich, wenn mehrere Computer per Remotezugriff auf die Daten zugreifen und diese aktualisieren, stellt jedoch erhebliche Anforderungen an die Leistung, und Sie werden vermutlich Einbußen feststellen. Achten Sie nach Möglichkeit darauf, die Netzwerk-Hops und Verknüpfungen in Bereitstellungen mit mehreren Knoten auf ein Minimum zu reduzieren. Verwenden Sie möglichst nahe beieinander liegende Computer, um die Latenz zu minimieren.
GARY SCHWARTZ – Im Hinblick auf das Netzwerk und den Server, auf dem die Gallery ausgeführt wird, sollten Sie außerdem einen passenden Domänennamen konfigurieren, damit die Benutzer auf den richtigen Server zugreifen und verweisen können. Wir haben zahlreiche Beispiele mit fehlerhaften DNS-Konfigurationen gesehen, in denen die Benutzer ihre Gallery nicht erreichen konnten. Für die Gallery empfehlen wir außerdem die Verwendung von SSL oder TLS. Dazu müssen Sie ein Zertifikat auf dem Server installieren, auf dem die Gallery gehostet wird, es sei denn, Sie befinden sich hinter einem Lastenausgleichsmodul. Arbeiten Sie mit Ihrem IT-Team zusammen, um das SSL-Zertifikat zu installieren. Dieser Vorgang erfordert fortgeschrittene IT-Kenntnisse. Zuletzt müssen Sie eine passende Vertrauensstellung zwischen der Domäne, in der die Gallery ausgeführt wird, und den Domänen herstellen, in denen die anderen Benutzer arbeiten werden, damit Active Directory die Berechtigungen auf Basis dieser Vertrauensstellungen auflösen und ermitteln kann.
Welche Anforderungen gelten für Webserver und Datenbanken von Drittanbietern?
KORY CUNNINGHAM – Das Serverpaket enthält alle erforderlichen Komponenten (z. B. Webserver und Datenbank) für die Architektur der Installation. Bei der Serverinstallation können Sie also sämtliche Komponenten installieren und konfigurieren. Für Bereitstellungen auf einem einzigen Knoten gelten keine zusätzlichen Abhängigkeiten. Wenn Sie jedoch in eine Umgebung mit mehreren Knoten skalieren, entstehen möglicherweise Anforderungen von Drittanbietern . Für die Skalierung der Gallery müssen Sie beispielsweise ein Lastenausgleichsmodul für den Webdatenverkehr einrichten. Alteryx verwendet das elastische Lastenausgleichsmodul von Amazon, aber Sie können auch F5 Networks oder eine andere vorhandene Lösung aus Ihrer IT-Abteilung verwenden. Für die Skalierung der Datenbank enthält unser Paket wie bereits erwähnt eine eingebettete Version von MongoDB. Wenn Sie jedoch hohe Verfügbarkeit, Redundanz und Zuverlässigkeit mit Replikatgruppen in MongoDB implementieren möchten, müssen Sie Ihren eigenen MongoDB-Datenbankknoten verwalten. Für die Einrichtung dieses Knotens empfehlen wir die MongoDB-Dokumentation zu Anforderungen, Installation und Best Practices. Abgesehen von diesen Punkten gelten keine Anforderungen von Drittanbietern .
GARY SCHWARTZ – Ich möchte gerne darauf hinweisen, dass bei uns zahlreiche Fragen zum Webserver eingehen. Webserver und Datenbank sind zwar in der Architektur als Paket verpackt, aber die Gallery ist ein selbstgehosteter Webdienst. Sie verwendet keinen Server wie Tomcat oder Apache, sondern wird als selbstgehosteter Webdienst mit der Konfiguration für die Basisadresse registriert, die am jeweiligen Ort auf Webanforderungen wartet.
Welche Möglichkeiten existieren für Hochverfügbarkeit und Datensicherungen?
GARY SCHWARTZ – Hohe Verfügbarkeit lässt sich mit einer redundanten Architektur erreichen. Die Architektur ist für horizontale Skalierung ausgelegt, und die Plattform unterstützt diese Art von Konfiguration. Die eigentliche Gallery lässt sich in Form von mehreren Gallery-Knoten hinter einem Lastenausgleichsmodul skalieren. Wenn ein Knoten ausfällt, wird der eingehende Datenverkehr weiterhin verarbeitet, bis Sie den Knoten wiederhergestellt haben. Der zweite Punkt hängt damit zusammen, was Steve zur Erhöhung des Workflow-Durchsatzes durch die Skalierung Ihrer Worker-Knoten geschrieben hat. Mit der Anzahl der Worker-Knoten steigt auch die Verfügbarkeit für die Ausführung von Workflows. Achten Sie darauf, die Auslastung Ihres Systems zu überwachen. Wenn Ihre Worker-Knoten also ständig an der Kapazitätsgrenze laufen, sollten Sie die Kapazität erhöhen, indem Sie weitere Worker-Knoten hinzufügen. Außerdem sollten Sie Ihre Daten unbedingt sichern. Als ersten Schritt können Sie dazu Ihre eingebettete MongoDB-Datenbank mit mehreren Mongo-Replikatgruppen auf separaten Knoten konfigurieren, um Datensicherungen und Redundanz zu erhalten. Beachten Sie außerdem die MongoDB-Empfehlungen für Sicherungen. Sie können zwischen mehreren Strategien wählen. Wir erstellen inkrementelle Sicherungen in regelmäßigen Abständen. Dies bedeutet, dass wir eine Basissicherung mit inkrementellen Momentaufnahmen erstellen, um nicht jedes Mal eine vollständige Sicherung durchführen zu müssen. Außerdem erstellen wir gelegentlich vollständige Sicherungen.
KORY CUNNINGHAM – Die eingebettete MongoDB-Instanz enthält grundlegende Sicherungs- und Wiederherstellungsfunktionen. Falls Sie jedoch eine Lösung mit hoher Verfügbarkeit und Redundanz benötigen, empfehlen wir Ihnen eine benutzerverwaltete MongoDB-Bereitstellung auf mehreren Knoten.
STEVE AHLGREN – Ich möchte noch hinzufügen, dass wir für die Ausführung in AWS eine regionale Verteilung empfehlen. Amazon hat gelegentlich Ausfälle. Wir haben sogar in unserer eigenen Public Gallery Ausfälle beobachtet, und die regionale Verteilung garantiert uns eine Verfügbarkeit von beinahe 100 %. Was die Datensicherung betrifft, können Sie in EC2 mühelos EBS-Momentaufnahmen einrichten. Richten Sie diese EBS-Momentaufnahmen und vollständige Sicherungen einmal pro Woche oder alle zwei Tage ein.
Wie funktioniert die Überwachung einer Serverbereitstellung?
STEVE AHLGREN – Sie können Ihre Bereitstellungen auf verschiedene Arten überwachen. Jede Komponente im Server verwendet eine eigene Infrastruktur für die Protokollierung. Die Front-End-Gallery schreibt eigene Protokollierung, das Back-End verwendet ebenfalls eine eigene Struktur mit Syslog-Ebenen, und die MongoDB-Datenbank verwendet eine eigene Protokollierungsstruktur. Auf jeder Ebene der Serverarchitektur werden also umfassende Protokolle erstellt. Wir empfehlen den Benutzern, diese Protokolle aufzubewahren und Alteryx zu verwenden. Alteryx verwendet Alteryx, um eigene Protokolle zu erfassen. Die Protokolle werden außerdem nach Amazon S3 weitergeleitet und können dort in externe Tools wie Logstash oder Loggly importiert werden. Höchstwahrscheinlich brauchen Sie jedoch außer Alteryx keine weiteren Tools. Für die Überwachung empfehlen wir außerdem Dienste wie Amazon CloudWatch, mit denen Sie Systemintegritätsdaten wie CPU und Arbeitsspeicher überwachen können, um Probleme frühzeitig zu erkennen. Außerdem empfehlen wir Ihnen, die Datenbank mit MongoDB Cloud Manager auf Problemindikatoren wie langsame Abfragen und Datenzugriffe mit umfassendem Paging zu überwachen. New Relic ist ein weiteres externes Überwachungstool, mit dem wir die Front-End-Knoten in Serverarchitekturen mit mehreren Ebenen überwachen. Wir verwenden New Relic zusammen mit Amazon CloudWatch, um unsere Computer auf Integritätskriterien wie wichtige Gallery-Prozesse, hohe CPU-Lasten oder Netzwerkdatenverkehr zu überwachen. Außerdem enthält unser Paket eine App zum Überwachen und Erfassen der Nutzung von Alteryx Server. Diese App wird auf dem Server in Alteryx ausgeführt und überwacht beispielsweise die aktuelle Anzahl der Benutzer, die durchschnittliche Anzahl von Aufträgen in der Ausführungswarteschlange und die Ausführungsdauer von Aufträgen. All diese grundlegenden Metriken sind hilfreich für die Verwaltung des Servers.
Welche Benutzerrechte und Datenzugriffskontrollen sind verfügbar?
KORY CUNNINGHAM In der Gallery können Sie die Benutzer verwalten und ihnen verschiedene Datenzugriffsebenen für einzelne Benutzerrollen zuweisen. Die Rollen reichen von einfachen Besuchern, die schreibgeschützten Zugriff auf die Gallery erhalten und nur Workflows ausführen können, über die sogenannten Experten, die Inhalte beitragen, Workflows hochladen und Apps in der Gallery erstellen und mit anderen Benutzern teilen können, bis hin zu den Kuratoren, einer Administrations- und Verwaltungsrolle für die Verwaltung der Gallery. Die Workflows der Experten, die Inhalte erstellen, werden in sogenannten Studios gespeichert. Studios sind eine Art von eingeschränkten Projektordnern, in denen mehrere Analysten zusammenarbeiten und Workflows teilen und veröffentlichen können, die nur für sie sichtbar sind. Von dort aus können die Workflows mit anderen Studios oder anderen Benutzern geteilt werden. Der Zugriff auf die Daten wird weiterhin kontrolliert. Alteryx Server beachtet die Regeln und Berechtigungsstufen, die Sie auf der Datenbankebene festgelegt haben. Auf diese Weise können Sie also globale Berechtigungen festlegen, mit denen sämtliche Workflows ausgeführt werden. Mit Version 10.5 haben wir die Flexibilität noch weiter verbessert und Ihnen die Möglichkeit gegeben, Berechtigungen für die Ausführung einzelner Workflows festzulegen. Dieser Funktionsumfang wird in Zukunft noch erweitert, halten Sie also Ausschau nach neuen Versionen! (Hinweis des Verfassers: Corys Video zu Respecting Data Governance with Self-Service Data Analytics (Daten-Governance mit Self-Service-Datenanalyse) enthält weitere Informationen)
DAS WARS FÜR HEUTE. VIELEN DANK!
Ich danke Kory, Gary und Steve dafür, dass sie sich die Zeit genommen haben, um einige der Fragen zu Alteryx Server zu beantworten. Falls Sie weitere Fragen haben, schreiben Sie uns hier in der Community oder laden Sie den Bericht „Alteryx Server: Skalierbare Self-Service-Datenanalysen für Unternehmen“ herunter.
Josh Howard
Vollständigen Artikel anzeigen