O Alteryx Server tem se tornado cada vez mais popular à medida que os líderes em análise de dados procuram dimensionar o Alteryx para lidar com projetos e conjuntos de dados maiores e colocar a análise self-service de dados nas mãos de um número maior de tomadores de decisão. Organizações, incluindo desde pequenos varejistas e provedores de dados especializados até grandes corporações, como Southwest Airlines, Chic-fil-A e Western Union, fizeram o upgrade para o Alteryx Server para melhorar a produtividade dos analistas e melhorar a tomada de decisões.
Como um analista do ramo de negócios, você provavelmente sabe que precisa fazer com que suas práticas de análise estejam preparadas para o mundo corporativo, e talvez tenha começado a analisar o Alteryx Server e a pensar sobre seus próximos passos. Nesse ponto, começamos a receber mais perguntas sobre as práticas recomendadas para implantar o Alteryx Server, como ele é escalonado, questões de governança e muito mais. Por isso, conversei recentemente com nossos principais especialistas do Alteryx Server, Kory Cunningham, gerente sênior de produto para o Alteryx Server, e Gary Schwartz e Steve Ahlgren, que são líderes de desenvolvimento do Alteryx Server, para obter as respostas para algumas das nossas perguntas mais frequentes (FAQ). Aqui está o feedback que recebemos da equipe.
Obrigado pela leitura,
Josh Howard Gerente de marketing de produto
Quais são alguns dos principais recursos do Alteryx Server pelos quais as pessoas podem se interessar?
KORY CUNNINGHAM - Existem vários, mas um dos recursos mais atraentes é a capacidade de aproveitar o hardware do servidor para que você possa implantar sua análise em escala e oferecer suporte a usuários simultâneos. Temos visto o Alteryx Server implantado em pequenos negócios de análise de dados com cinco pessoas até em empresas multinacionais com centenas de usuários. O segundo recurso é o agendamento. O Agendador oferece a capacidade de pegar fluxos de trabalho e processos analíticos e agendá-los para serem executados posteriormente, produzindo relatórios mais oportunos, e gerenciá-los de maneira automatizada para geração de relatórios diários, semanais, mensais. O terceiro é o Gallery. O Gallery é uma interface da web na qual você pode publicar fluxos de trabalho do Alteryx em uma galeria, para compartilhar com outros colegas e usuários corporativos para que eles obtenham o mesmo processamento analítico, mas sem precisarem ter o Alteryx instalado no desktop. Assim, alguém poderia se conectar a um navegador da web, acessar o Gallery e executar seus relatórios sem o Alteryx Designer. Na plataforma do Gallery, você também tem controle de versão e colaboração em fluxos de trabalho. É possível compartilhar, modificar e monitorar essas alterações por usuário e pelo momento em que a alteração ocorreu. Isso tudo faz parte da plataforma do Alteryx Server.
Conte-me sobre as configurações de implantação com suporte no Alteryx Server. Ele pode ser implantado em um ambiente virtual?
GARY SCHWARTZ – Sobre a configuração de implantação, estamos em um stack da Microsoft, então é tudo Windows. Oferecemos suporte ao Windows Server 2008 R2 e superior, e você pode ver as especificações técnicas recomendadas em nossa página Tech Specs. Com relação à implantação, recomendamos que o Server seja executado em bare-metal, mas também é possível executá-lo em ambientes virtualizados. Na verdade, nós executamos nosso próprio Gallery em um ambiente virtualizado da Amazon. Fazemos testes em alguns ambientes virtuais, mas não oferecemos certificação técnica do Server nesses ambientes. Então, o Alteryx Server funciona bem em ambos os ambientes físicos e virtuais. O que precisa ser considerado é o conflito de recursos no computador físico. Se estiver sendo executado em um computador físico compartilhado por muitos, você poderá ter algum conflito de recursos. Você também deve considerar CPUs vs. vCPUs. Por exemplo, no Amazon você pode ter 4, 8 ou 16 CPUs, mas, na verdade, eles estão se referindo a vCPUs, que são metade de uma CPU real, e nossas especificações são baseadas em CPUs físicas. Tenha isso em mente.
Quais os tipos de autenticação fornecidos? SSO está disponível?
KORY CUNNINGHAM - No que diz respeito ao Gallery, há suporte para duas formas principais de autenticação. Uma é a autenticação integrada, que consiste simplesmente em e-mail e senha com os quais os usuários podem fazer login usando sua própria conta criada por eles ou pelo administrador. Também damos suporte à autenticação do Windows, incluindo suporte nativo para NTLM e Kerberos. Isso permite que os usuários do Gallery façam login utilizando as mesmas credenciais que provavelmente usam para se conectar a seu próprio computador e aproveitem seu diretório ativo existente para autenticação e gerenciamento de usuários para acessar o Gallery. E, a partir da versão 10.5, também introduzimos a capacidade de executar fluxos de trabalho como usuário, para que um usuário possa executar um fluxo de trabalho utilizando suas próprias credenciais em vez de usar uma conta de administrador do servidor global e obter acesso somente aos dados para os quais tem permissão.
Quantos usuários ou aplicativos uma implantação pode manejar?
STEVE AHLGREN – A resposta mais simples é que podemos lidar com um número virtualmente ilimitado de usuários e temos clientes com centenas de usuários no Alteryx Server. Mas, em vez do número de usuários, talvez seja mais importante considerar o número e os tipos de aplicativos que podem ser manejados. O lado bom do Server é que ele oferece escalonamento linear, então é possível adicionar mais recursos para manejar uma carga maior. Se você tiver disponível um hardware ou hardware virtual, podemos completar essa instância até sua capacidade, dependendo da carga esperada. O número de usuários simultâneos é limitado pelos serviços de front-end fornecidos pela sua infraestrutura interna ou de nuvem. Se você tiver um balanceador de carga, podemos escalonar para manejar ambas as cargas front-end e back-end.
Como ocorre o dimensionamento do Alteryx Server?
STEVE AHLGREN – Existem três pontos principais de escalabilidade e vou listá-los por ordem de probabilidade:
Adicionando recursos de processamento de fluxo de trabalho a uma instância do servidor. Chamamos de Operadores de fila ou Operadores de renderização, que são instâncias de hardware físico ou virtual que processam fluxos de trabalho do Alteryx e renderizam peças de mapa, respectivamente. Os Operadores de fila executam o mesmo mecanismo Alteryx que é executado no produto Alteryx Designer. Existem duas maneiras principais de dimensioná-los, uma delas é escalonar horizontalmente, que significa adicionar mais operadores físicos ou virtuais em uma instância do servidor, e a segunda maneira é escalonar verticalmente, o que significa adicionar mais capacidade de operação a um nó físico existente ou adicionar mais hardware a um nó físico existente. Enfatizamos que maiores ganhos de desempenho serão obtidos por meio do escalonamento horizontal, pela adição de mais hardware físico e operadores físicos a uma instância existente do servidor.
A segunda maneira de dimensionar é por meio do escalonamento do banco de dados back-end, que no nosso caso é o MongoDB. O MongoDB tem vários tipos de opções de escalabilidade para redundância e desempenho, e um deles ocorre por meio de conjuntos de réplicas. Os conjuntos de réplicas são uma maneira pela qual o Mongo obtém redundância e confiabilidade de dados, essencialmente gravando dados em vários nós ao mesmo tempo para garantir que exista pelo menos uma cópia dos seus dados o tempo todo. Se um nó cair, um novo nó assumirá o seu lugar e o servidor deverá permanecer ativo e em execução. Você também pode escalonar a base de dados por meio da fragmentação. A fragmentação tem mais desempenho e potencialmente permite o uso de tamanhos de disco menores, o que é importante se você estiver usando hardware virtualizado em uma infraestrutura do tipo Amazon.
A terceira maneira de dimensionar é pelo Gallery. O Gallery é o serviço de front-end que maneja solicitações de usuário do cliente ou navegador da web. Esse é o meio menos provável de realizar o dimensionamento porque não tende a representar um afunilamento e depende do tipo de usuários e aplicativos que estão sendo executados, mas é possível escalonar utilizando um balanceador de carga. Na verdade, utilizamos todos os três métodos de escalonamento implantados em nossa própria instância do Alteryx Gallery público.
Qual o tipo de especificações de rede ou hardware necessário?
KORY CUNNINGHAM – Você pode encontrar toda a nossa documentação técnica em http://downloads.alteryx.com/, mas para uma instalação típica, recomendamos um computador quad-core de CPU única com 2,5 GHz e pelo menos 16 GB de RAM (ou mais) e uma unidade de estado sólido (SSD). A SSD faz uma grande diferença na velocidade da leitura e gravação dos dados. Outro ponto a ser considerado é a topologia de rede no que tange ao local do conjunto de dados. Por exemplo, se estiver comprando nossos dados de terceiros (e.g. Experian) eles podem ser instalados tanto no mesmo computador que o software do Server quanto em um local de rede. Mas instalá-los no Server é sua melhor opção em termos de desempenho e para mantê-los o mais próximo possível do mecanismo de execução ou do espaço de computação. Os dados também podem ser armazenados em uma rede que permita o armazenamento dos dados em um local remoto, o que é conveniente por possibilitar que vários computadores acessem e atualizem remotamente esses dados, mas exerce uma sobrecarga significativa no desempenho e você provavelmente verá degradação. No que se refere aos saltos ou links de rede que devem ocorrer em uma implantação de vários nós, é bom certificar-se de que eles sejam reduzidos ao mínimo. Tente, portanto, manter os computadores tão próximos quanto possível para evitar latência.
GARY SCHWARTZ – Outra coisa a se considerar em relação à rede e ao servidor em que o Gallery está sendo executado é a configuração adequada de um nome de domínio que os usuários possam acessar e que aponte para o servidor correto. Vimos muitos exemplos em que o DNS estava incorreto e os usuários não conseguiam entender por que não podiam acessar sua galeria. Além disso, com o Gallery, recomendamos a utilização de SSL ou TLS, o que significa que é necessário instalar um certificado no servidor que hospeda o Gallery, a menos que esteja trabalhando com um balanceador de carga. Trabalhe com sua equipe de TI para instalar o certificado SSL, o que pode ser bastante trabalhoso. Por último, o domínio em que o Gallery é executado precisa do nível apropriado de diretiva de confiança definido com os outros domínios nos quais os outros usuários trabalharão, para que o Active Directory possa resolver e determinar permissões em função disso.
Existe algum requisito de base de dados ou de servidor web de terceiros?
KORY CUNNINGHAM – O Server tem incluso todos os componentes necessários (por exemplo, servidor da web e base de dados) na própria arquitetura ou instalação. Dessa forma, tudo poderá ser instalado e configurado na instalação do Server. Para um computador com nó único, não há dependências adicionais, mas é possível que você comece a ver alguns requisitos de terceiros para um ambiente de vários nós se você fizer escalonamento. Se, por exemplo, você escalonar o Gallery, você precisará configurar um balanceador de carga para lidar com todo o tráfego da web. Na Alteryx, utilizamos o balanceador de carga elástico da Amazon, mas você pode usar algo como o F5 Networks ou o que seu departamento de TI usar. Como mencionado acima, caso queira escalonar a base de dados, está inclusa uma versão incorporada do MongoDB. Mas se você começar a tirar proveito dos conjuntos de réplicas do Mongo para obter alta disponibilidade, redundância e confiabilidade, precisará gerenciar seu próprio nó de base de dados do Mongo. Recomendamos que você consulte as especificações, a instalação e as práticas recomendadas do Mongo para essa configuração. Para além desses casos, não há requisitos de terceiros.
GARY SCHWARTZ – Eu também mencionaria que recebemos muitas perguntas sobre o servidor web. O servidor web e a base de dados são inclusos na arquitetura, mas o Gallery é um serviço web auto-hospedado. Ele não usa nada como o Tomcat ou o Apache, é um serviço web auto-hospedado que se registra com a configuração do endereço base que detecta solicitações da web desse local.
Como posso gerenciar alta disponibilidade e backups de dados?
GARY SCHWARTZ – Para alta disponibilidade, trata-se de redundância na arquitetura e, como a arquitetura é projetada para escalonar horizontalmente, a plataforma oferece suporte a ela. Na perspectiva do Gallery, é possível dimensionar para ter vários nós do Gallery atrás de um balanceador de carga. Se um nó falhar, ele ainda receberá tráfego enquanto você recupera o outro e o coloca em operação novamente. Em segundo lugar, voltando ao que o Steve disse sobre aumentar o rendimento dos fluxos de trabalho por meio do escalonamento horizontal dos seus nós de trabalho… Quanto mais nós de trabalho você tiver, maior disponibilidade terá para executar fluxos de trabalho. Por isso, é bom monitorar o uso do sistema. Se os nós de trabalho estiverem sendo executados continuamente com capacidade total, será necessário adicionar mais nós para obter mais capacidade. Nós certamente recomendamos que se faça o backup dos dados. O primeiro passo para isso é escalonar horizontalmente sua base de dados incorporada do MongoDB para posicionar vários conjuntos de réplicas do Mongo em nós separados, o que proporcionará backup e redundância imediatos. Também recomendamos seguir as recomendações do MongoDB para backups. Existem várias estratégias para isso. Nós utilizamos intervalos regulares de backups incrementais, de maneira que temos um backup de base com instantâneos incrementais ao longo do processo, sem a necessidade de fazer backups completos o tempo todo. Ocasionalmente, fazemos backups completos.
KORY CUNNINGHAM – De fato, temos um recurso de backup e restauração disponível para capacidades básicas de backup na instância incorporada do MongoDB. Entretanto, se estiver procurando uma solução de alta disponibilidade que seja altamente redundante, recomendamos uma implantação de vários nós gerenciada pelo usuário de uma implantação do MongoDB.
STEVE AHLGREN – Eu também acrescentaria que, se estivesse executando no AWS, eu configuraria a distribuição regional. O Amazon sofre interrupções. Mesmo em nosso próprio Gallery público já tivemos interrupções, e a distribuição regional garante quase 100% de tempo de atividade. Em termos de backup, é fácil configurar os instantâneos do EBS se você estiver executando no EC2. É possível configurar os instantâneos do EBS e backups completos para toda semana ou a cada dois dias.
Como você monitora uma implantação do servidor?
STEVE AHLGREN – Existem várias maneiras diferentes de monitorar implantações. Cada componente no servidor possui sua própria infraestrutura de registro em log. O Gallery front-end grava seus próprios logs, o back-end também tem sua própria estrutura usando níveis de syslog, e o banco de dados do Mongo possui sua própria estrutura de registro em log. Então, existe um registro em log extensivo em cada camada da arquitetura do servidor. Sugerimos que todos coletem esses logs e utilizem o Alteryx. A Alteryx utiliza o Alteryx para coletar nossos próprios logs. Também desviamos os logs para o Amazon S3, onde eles podem ser importados para ferramentas de terceiros como Logstash e Loggly, mas o Alteryx provavelmente constitui toda a ferramenta de registro em log que você precisa para isso. Em relação a outros recursos de monitoramento, também recomendamos a utilização de serviços como o Amazon CloudWatch para monitorar a integridade do sistema, como CPU e memória, o que proporciona um indicador antecipado de complicações ou problemas. Também recomendamos o monitoramento de banco de dados back-end com o MongoDB Cloud Manager para monitorar questões como consultas lentas e acesso a dados com paginação extensa, ambos os quais poderiam indicar um problema. Outra ferramenta de monitoramento de terceiros que usamos é o New Relic, usado para monitorar os nós de front-end em uma arquitetura de servidor de várias camadas. Utilizamos o New Relic em combinação com o Amazon CloudWatch para monitorar a integridade do computador em relação a, por exemplo, processos importantes do Gallery, carga pesada de CPU e tráfego de rede. Mas também incluímos um Aplicativo de relatórios e monitoramento do uso do Server, que é executado dentro do Alteryx no Server para monitorar, por exemplo, o número de usuários atuais, o número médio de trabalhos na fila de execução e o tempo de execução dos trabalhos – ou seja, um monitoramento básico útil para gerenciar o Server.
Quais permissões de usuário e controles de acesso a dados estão disponíveis?
KORY CUNNINGHAM - No Gallery, é possível gerenciar os usuários e fornecer a esses usuários vários níveis de acesso a dados para funções diferentes de usuário. Do Visualizador básico, que é um acesso básico de exibição apenas, onde os usuários podem somente executar fluxos de trabalho, até o que chamamos de Artesão, que são aqueles usuários que contribuem para o conteúdo, upload de fluxos de trabalho e criação de aplicativos na galeria para compartilhamento com outros usuários, e finalmente ao que chamamos de função de Curador, que é um papel de administração e gerenciamento da galeria. Para os Artesãos que criam conteúdo, os fluxos de trabalho são armazenados no que chamamos de "Estúdios". Os estúdios são basicamente pastas de projetos restritas, de onde vários analistas podem compartilhar, colaborar e publicar fluxos de trabalho que só eles podem ver. A partir daí, eles podem compartilhar esses fluxos de trabalho com outros Estúdios ou com outros usuários, o que proporciona uma outra maneira de controlar o gerenciamento de acesso a dados. Com o Alteryx Server, respeitamos as regras e os níveis de permissão que você define no nível da base de dados. Assim, é possível definir permissões globais conforme as quais todos os fluxos de trabalho são executados. Na versão 10.5, fornecemos ainda mais flexibilidade, possibilitando a definição de permissões no nível individual para a execução dos fluxos de trabalho. Nós estamos sempre expandindo as capacidades dos produtos Alteryx, então fique atento aos lançamentos futuros! (Nota do editor: consulte o vídeo do Kory sobre como respeitar a governança de dados com análise self-service de dados para obter mais informações)
POR ENQUANTO, É ISSO! OBRIGADO!
Um super obrigado a Kory, Gary e Steve por terem participado e respondido algumas das perguntas que recebemos sobre o Alteryx Server. Se tiver mais dúvidas, fique à vontade para nos enviar perguntas aqui para o Community ou baixar o relatório "Alteryx Server: Escalonando a análise self-service de dados para empresas".
Josh Howard
Ver artigo completo