Free Trial

Blog

Insights e ideias das mentes mais brilhantes em análise de dados.
fvilelabr
Alteryx
Alteryx

No artigo anterior, que você pode encontrar aqui, falamos sobre os componentes do Alteryx Server e tipos de tolerância a falhas. Nesse artigo iremos focar na Recuperação de Desastre.

 

Mas antes... Qual a diferença entre Recuperação de Desastre e Alta Disponibilidade?

 

A recuperação de desastre (Disaster Recovery, em inglês) e a alta disponibilidade (High Availability) são duas abordagens diferentes para garantir a continuidade de ambientes tecnológicos em situações adversas. Embora ambas estejam relacionadas à resiliência de sistemas, elas têm objetivos e estratégias distintas:

 

Recuperação de Desastre refere-se a um conjunto de processos, políticas e procedimentos que uma organização implementa para restaurar seus sistemas e dados após um desastre ou interrupção significativa. Esses desastres podem incluir incêndios, inundações, terremotos, falhas de energia, ataques cibernéticos graves ou qualquer outro evento que cause uma interrupção significativa das operações normais. O foco principal da recuperação de desastre é minimizar o tempo de inatividade e recuperar os sistemas e dados para um estado operacional normal. Normalmente, envolve a implementação de backups, replicação de dados para locais secundários, procedimentos de failover e ações para recuperar a infraestrutura afetada.

 

Alta Disponibilidade refere-se à capacidade de um sistema ou ambiente tecnológico estar sempre disponível para uso, com um tempo mínimo de inatividade planejado ou não planejado. O objetivo da alta disponibilidade é garantir a continuidade dos serviços em caso de falhas ou interrupções. Isso é geralmente alcançado por meio da redundância de hardware, software e recursos de rede, para que, se um componente falhar, outro assuma imediatamente sem interromper a operação. A alta disponibilidade geralmente envolve a utilização de técnicas como balanceamento de carga, clustering, replicação de dados em tempo real e monitoramento proativo de sistemas.

 

Em resumo, a recuperação de desastre concentra-se na restauração após uma interrupção significativa, enquanto a alta disponibilidade se concentra na prevenção de falhas e na garantia de que os sistemas estejam sempre disponíveis. Ambas as abordagens são importantes para garantir a resiliência e a continuidade dos ambientes tecnológicos, mas têm estratégias diferentes para alcançar esses objetivos.

 

Como falado no artigo anterior, ao decidir entre uma arquitetura de recuperação de desastre (DR) e alta disponibilidade (HA), a pergunta chave que uma equipe de arquitetura de sistemas deve se fazer é:

 

"Qual é a tolerância a falhas e o impacto máximo de tempo de inatividade aceitável?"

 

Essa pergunta ajudará a determinar a abordagem mais adequada para atender aos requisitos de continuidade de negócios da organização.

 

Entendido a diferença entre Recuperação de Desastre e Alta Disponibilidade, podemos considerar o seguinte quadro abaixo para análise comparativa:

 

 

fvilelabr_0-1683892722926.png

 

 

O Alteryx Server, uma plataforma de automação de processos analíticos, pode ser configurado de diferentes maneiras para oferecer diferentes níveis de tolerância a falhas, desde parcialmente tolerante a falhas até totalmente tolerante a falhas com alta disponibilidade. Aqui estão as três abordagens possíveis:

 

  1. Parcialmente tolerante a falhas: Nesse cenário, o Alteryx Server não é configurado para alta disponibilidade ou recuperação de desastre. Em caso de falha, seja no hardware ou no software do servidor, pode ocorrer uma interrupção dos serviços. A recuperação envolveria a solução dos problemas e a restauração do servidor para que o Alteryx Server volte a funcionar normalmente. No entanto, isso pode resultar em um tempo de inatividade significativo e na perda de dados e processos em andamento.

 

  1. Tolerante a falhas com recuperação de desastre: Nessa configuração, o Alteryx Server é projetado para lidar com interrupções mais significativas, como falhas de hardware, falhas de energia ou desastres naturais. É implementada uma estratégia de recuperação de desastre que envolve a replicação de dados e a criação de backups em um local secundário, normalmente em um ambiente de nuvem ou em um data center remoto. Se ocorrer uma falha no local principal, o Alteryx Server pode ser restaurado no local secundário, permitindo a retomada das operações em um tempo razoável. No entanto, pode haver uma interrupção dos serviços durante o período de recuperação.

 

  1. Totalmente tolerante a falhas com alta disponibilidade: Essa é a configuração mais robusta e garante a máxima disponibilidade do Alteryx Server. Envolve a implementação de técnicas de alta disponibilidade, como a utilização de clusters e balanceamento de carga. Nesse caso, são configurados vários servidores Alteryx em um ambiente redundante, onde a carga de trabalho é distribuída entre eles. Se um servidor falhar, outros assumem automaticamente, garantindo a continuidade do serviço sem interrupção perceptível. Além disso, são realizadas replicação contínua de dados e backups em tempo real, permitindo uma rápida recuperação em caso de falha grave. Essa configuração oferece a mais alta tolerância a falhas e a menor chance de interrupção dos serviços.
 
 

Agora, vamos detalhar um pouco mais sobre a opção Recuperação de Desastres no ambiente Alteryx Server:

 

 

fvilelabr_4-1683629637558.png

 

 

Configurar a recuperação de desastre em um ambiente Alteryx Server envolve várias etapas técnicas importantes. Aqui estão os passos geralmente seguidos para configurar a recuperação de desastre:

 

Planejamento e avaliação:

  • Avalie as necessidades e requisitos de recuperação de desastre da sua organização. Isso inclui considerar o tempo de recuperação desejado (RTO - Recovery Time Objective).
  • Identifique os principais componentes do Alteryx Server que precisam ser protegidos e avalie o impacto de sua interrupção em caso de falha.
  • Defina uma estratégia de recuperação de desastre adequada ao seu ambiente, levando em consideração fatores como orçamento, recursos disponíveis e riscos específicos do seu negócio.

 

Configuração do ambiente secundário:

  • Prepare um ambiente secundário, como um data center remoto ou uma infraestrutura de nuvem, que servirá como o local de recuperação de desastre.
  • Instale e configure o Alteryx Server no ambiente secundário, garantindo que a versão e as configurações sejam compatíveis com o ambiente de produção.

 

Replicação de dados:

  • Estabeleça a replicação contínua dos dados do Alteryx Server do ambiente de produção para o ambiente secundário. Isso inclui a replicação de bancos de dados, arquivos e qualquer outro dado necessário para restaurar completamente o ambiente do Alteryx Server.
  • Configure as ferramentas de replicação adequadas, como espelhamento de banco de dados, sincronização de arquivos ou outras soluções de replicação de dados.

 

Uma sugestão é ter um ambiente MongoDB User-Managed. Assim terá o banco de metadados compartilhado entre os ambientes ativo e passivo. Maiores detalhes sobre essa configuração pode ser encontrada aqui.

 

Configuração de rede:

  • Estabeleça uma conexão de rede segura e confiável entre o ambiente de produção e o ambiente secundário. Isso pode envolver a configuração de VPNs, links de rede dedicados ou outras soluções de conectividade.

 

Testes de recuperação de desastre:

  • Realize testes regulares de recuperação de desastre para validar a eficácia do processo de recuperação e garantir que todos os dados, configurações e componentes do Alteryx Server possam ser restaurados corretamente no ambiente secundário.
  • Documente os procedimentos de recuperação de desastre e mantenha-os atualizados. Isso inclui detalhes sobre os passos a serem seguidos, configurações necessárias e informações de contato da equipe responsável.

 

Monitoramento e manutenção contínuos:

  • Implemente um sistema de monitoramento contínuo para acompanhar o estado do ambiente de produção e do ambiente secundário.
  • Monitore regularmente a replicação de dados para garantir que ela esteja ocorrendo conforme o esperado.
  • Realize manutenção e atualizações regulares tanto no ambiente de produção quanto no ambiente secundário, garantindo que ambos estejam atualizados e prontos para serem usados em caso de falha.

 

Procedimentos e documentação:

  • Desenvolva e documente procedimentos detalhados de recuperação de desastre, incluindo a sequência de ações necessárias, as configurações a serem ajustadas e os requisitos de rede.
  • Garanta que a documentação esteja atualizada e acessível à equipe responsável pela recuperação de desastre.

 

Lembrando que a configuração exata para a recuperação de desastre pode variar dependendo da infraestrutura específica e dos requisitos da organização.

 

Dica: Recomenda-se buscar orientação técnica especializada e consultar a documentação oficial.

 

É extremamente importante ressaltar que o ambiente de Recuperação de Desastre é um ambiente passivo, isso quer dizer:

 

  • É necessário uma licença adicional ao do Alteryx Server Ativo para ter esse ambiente configurado;
  • O ambiente deverá estar inativo e somente poderá se tornar ativo se o servidor principal deixar de operar;
  • Considerar que há um tempo de inatividade até que todos os scripts e procedimentos para subir o ambiente passivo sejam de fato efetuados;
  • Os processos que estavam em execução no momento do desastre irão ser atingidos, no entanto, após o ambiente secundário se tornar o ambiente ativo, os processos poderão ser executados novamente.

 

Em resumo, a opção de recuperação de desastre é benéfica para o ambiente Alteryx Server porque oferece proteção contra falhas catastróficas, permitindo a rápida recuperação dos serviços analíticos. Isso reduz o tempo de inatividade, protege os dados críticos e garante a continuidade dos negócios, mesmo em situações adversas, garantindo a resiliência do Alteryx Server e proteger os investimentos e operações das organizações.

 

No próximo artigo iremos falar em mais detalhes sobre Alta Disponibilidade.

Rótulos