Free Trial

Blog

Visiones e ideas de las mentes más brillantes en el campo del análisis.
fvilelabr
Alteryx Alumni (Retired)

En el artículo anterior, que puede encontrar aquí, hablamos sobre los componentes del Servidor Alteryx y los tipos de tolerancia a fallos.

 

En este artículo nos centraremos en la Recuperación de Desastres.

 

Pero antes... ¿Cuál es la diferencia entre Recuperación de Desastres y Alta Disponibilidad?

 

La Recuperación de Desastres y la Alta Disponibilidad son dos enfoques diferentes para asegurar la continuidad de entornos tecnológicos en situaciones adversas. Aunque ambos están relacionados con la resiliencia de los sistemas, tienen objetivos y estrategias diferentes:

 

La Recuperación de Desastres se refiere a un conjunto de procesos, políticas y procedimientos que una organización pone en marcha para restaurar sus sistemas y datos tras un desastre o una interrupción significativa. Estas catástrofes pueden incluir incendios, inundaciones, terremotos, cortes de electricidad, ciberataques graves o cualquier otro suceso que cause una interrupción significativa de las operaciones normales. El objetivo principal de la recuperación en caso de catástrofe es minimizar el tiempo de inactividad y recuperar los sistemas y datos a un estado operativo normal. Normalmente implica la realización de copias de seguridad, la replicación de datos en ubicaciones secundarias, procedimientos de conmutación por error y acciones para recuperar la infraestructura afectada.

 

Alta disponibilidad se refiere a la capacidad de un sistema o entorno tecnológico de estar siempre disponible para su uso, con un tiempo de inactividad mínimo, planificado o no. El objetivo de la alta disponibilidad es garantizar la continuidad de los servicios en caso de fallos o interrupciones. Esto suele lograrse mediante la redundancia de hardware, software y recursos de red, de modo que si falla un componente, otro toma el relevo inmediatamente sin interrumpir el funcionamiento. La alta disponibilidad suele implicar el uso de técnicas como el equilibrio de carga, la agrupación en clústeres, la replicación de datos en tiempo real y la supervisión proactiva de los sistemas.

 

En resumen, la recuperación ante desastres se centra en la restauración tras una interrupción significativa, mientras que la alta disponibilidad se centra en prevenir fallos y garantizar que los sistemas estén siempre disponibles. Ambos enfoques son importantes para garantizar la resistencia y continuidad de los entornos tecnológicos, pero tienen estrategias diferentes para lograr estos objetivos.

 

Como se comentaba en el artículo anterior, a la hora de decidir entre una arquitectura de recuperación ante desastres (DR) y una de alta disponibilidad (HA), la pregunta clave que debe hacerse un equipo de arquitectura de sistemas es:

 

"¿Cuál es la máxima tolerancia a fallos aceptable y el impacto del tiempo de inactividad?"

 

Esta pregunta ayudará a determinar el enfoque más adecuado para satisfacer los requisitos de continuidad de negocio de la organización.

 

Entendiendo la diferencia entre Recuperación de Desastres y Alta Disponibilidad, podemos considerar el siguiente para realizar un análisis comparativo:

 

 

 

fvilelabr_2-1683630355339.png

 

 

Alteryx Server, una plataforma de automatización de procesos analíticos, puede configurarse de diferentes maneras para proporcionar diferentes niveles de tolerancia a fallos, desde parcialmente tolerante a fallos hasta totalmente tolerante a fallos con alta disponibilidad. Estos son los tres enfoques posibles:

 

Parcialmente tolerante a fallos: En este escenario, Alteryx Server no está configurado para alta disponibilidad o recuperación ante desastres. En caso de fallo, ya sea del hardware o del software del servidor, puede producirse una interrupción de los servicios. La recuperación implicaría solucionar los problemas y restaurar el servidor para que Alteryx Server vuelva a funcionar con normalidad. Sin embargo, esto puede resultar en un tiempo de inactividad significativo y la pérdida de datos y procesos en curso.

 

Tolerante a fallos con recuperación ante desastres: En esta configuración, Alteryx Server está diseñado para hacer frente a interrupciones más importantes, como fallos de hardware, cortes de energía o desastres naturales. Se implementa una estrategia de recuperación ante desastres que implica la replicación de datos y la creación de copias de seguridad en una ubicación secundaria, normalmente en un entorno en la nube o en un centro de datos remoto. Si se produce un fallo en el sitio primario, el Servidor Alteryx puede restaurarse en el sitio secundario, lo que permite reanudar las operaciones en un tiempo razonable. Sin embargo, puede haber una interrupción de los servicios durante el periodo de recuperación.

 

Totalmente tolerante a fallos con alta disponibilidad: Esta es la configuración más robusta y garantiza la máxima disponibilidad del Servidor Alteryx. Implica la implementación de técnicas de alta disponibilidad, como el uso de clusters y balanceo de carga. En este caso, se configuran varios servidores Alteryx en un entorno redundante, donde la carga de trabajo se distribuye entre ellos. Si un servidor falla, los demás toman el relevo automáticamente, garantizando la continuidad del servicio sin ninguna interrupción perceptible. Además, se realiza una replicación continua de los datos y copias de seguridad en tiempo real, lo que permite una rápida recuperación en caso de fallo grave. Esta configuración ofrece la mayor tolerancia a fallos y la menor posibilidad de interrupción del servicio.

 

Ahora, vamos a detallar un poco más sobre la opción de Recuperación ante Desastres en el Alteryx Server:

 

 

fvilelabr_3-1683630440458.png

 

 

La configuración de la recuperación de desastres en un entorno Alteryx Server implica varios pasos técnicos importantes. Estos son los pasos que generalmente se siguen para configurar la recuperación de desastres:

 

Planificación y evaluación:

  • Evalúe las necesidades y requisitos de recuperación ante desastres de su organización. Esto incluye considerar el objetivo de tiempo de recuperación (RTO) deseado.
  • Identifique los componentes clave de Alteryx Server que deben protegerse y evalúe el impacto de su interrupción en caso de fallo.
  • Defina una estrategia de recuperación ante desastres adecuada para su entorno, teniendo en cuenta factores como el presupuesto, los recursos disponibles y los riesgos específicos de su empresa.

 

Configuración del entorno secundario:

  • Prepare un entorno secundario, como un centro de datos remoto o una infraestructura en la nube, que servirá como sitio de recuperación ante desastres.
  • Instale y configure Alteryx Server en el entorno secundario, asegurándose de que la versión y la configuración sean compatibles con el entorno de producción.

 

Replicación de datos:

  • Establezca una replicación continua de los datos de Alteryx Server desde el entorno de producción al entorno secundario. Esto incluye la replicación de bases de datos, archivos y cualquier otro dato necesario para restaurar completamente el entorno de Alteryx Server.
  • Configure las herramientas de replicación adecuadas, como la duplicación de bases de datos, la sincronización de archivos u otras soluciones de replicación de datos.

Una sugerencia es tener un entorno MongoDB User-Managed. De esa forma tendrás la base de datos de metadatos compartida entre los entornos activo y pasivo. Puedes encontrar más detalles sobre esta configuración aquí.

 

Configuración de la red:

  • Establecer una conexión de red segura y fiable entre el entorno de producción y el secundario. Esto puede implicar la configuración de VPN, enlaces de red dedicados u otras soluciones de conectividad.

 

Pruebas de recuperación en caso de catástrofe:

  • Realice pruebas periódicas de recuperación ante desastres para validar la eficacia del proceso de recuperación y garantizar que todos los datos, configuraciones y componentes de Alteryx Server puedan restaurarse correctamente en el entorno secundario.
  • Documente los procedimientos de recuperación ante desastres y manténgalos actualizados. Esto incluye detalles sobre los pasos a seguir, las configuraciones requeridas y la información de contacto del equipo responsable.

 

Supervisión y mantenimiento continuos:

  • Implantar un sistema de supervisión continua para hacer un seguimiento del estado del entorno de producción y del entorno secundario.
  • Supervisar periódicamente la replicación de datos para garantizar que funciona como se espera.
  • Realice tareas de mantenimiento y actualizaciones periódicas tanto en el entorno de producción como en el secundario, garantizando que ambos están actualizados y listos para su uso en caso de fallo.

 

Procedimientos y documentación:

  • Desarrollar y documentar procedimientos detallados de recuperación en caso de catástrofe, incluida la secuencia de acciones necesarias, las configuraciones que deben ajustarse y los requisitos de la red.
  • Asegúrese de que la documentación está actualizada y es accesible para el equipo responsable de la recuperación en caso de catástrofe.

Recuerde que la configuración exacta para la recuperación en caso de catástrofe puede variar en función de la infraestructura y los requisitos específicos de la organización. Se recomienda buscar asesoramiento técnico experto y consultar la documentación oficial.

 

Es extremadamente importante notar que el ambiente de Recuperación de Desastres es un ambiente pasivo, esto significa:

 

  • Se requiere una licencia adicional al Servidor Alteryx para tener configurado este entorno.
  • El entorno debe estar inactivo y sólo puede activarse si el servidor principal deja de funcionar.
  • Considerar que hay un tiempo hasta que todos los scripts y procedimientos para cargar el entorno son realmente ejecutados.
  • Los procesos que se estaban ejecutando en el momento del desastre se verán afectados, sin embargo, después de que el entorno secundario se vuelva activo, los procesos podrán volver a ejecutarse sin ningún tipo de problema.

 

En resumen, la opción de recuperación de desastres es beneficiosa para el entorno de Alteryx Server porque proporciona protección contra fallos catastróficos, permitiendo la rápida recuperación de los servicios analíticos. Esto reduce el tiempo de inactividad, protege los datos críticos y garantiza la continuidad del negocio, incluso en situaciones adversas, asegurando la resiliencia de Alteryx Server y protegiendo las inversiones y operaciones de las organizaciones.

 

En el próximo artículo hablaremos con más detalle sobre la Alta Disponibilidad.

Etiquetas