Blog

Visiones e ideas de las mentes más brillantes en el campo del análisis.
Garabujo7
Alteryx
Alteryx

giphy.gif

 

 

Esta es la primera parte de una serie de tres artículos en los que revisare la plataforma de Alteryx Machine Learning en la nube.



Comenzaré con:


Democratización de la analítica

 

La democratización de la analítica o lo que en Alteryx hemos definido como: Analítica para todos, significa que cualquier persona, sin importar el área en la que trabaja o aunque su formación profesional no se encuentre alineada con tecnología ni ciencia de datos pueda, aprovechar los beneficios de la analítica y la automatización de procesos.

 

Como vemos en la siguiente gráfica de @Datavizzdom, las actividades de un científico de datos van más allá de la creación de modelos predictivos, y es en esas otras tareas (limpieza y exploración de datos) que consumen la mayoría del tiempo, que la plataforma de Alteryx brilla.

 

 

Garabujo7_1-1659554360217.png

 

 

Es por eso que la plataforma de Alteryx ofrece soluciones enfocadas en el autoservicio y la productividad, quitamos la complejidad, los sistemas cerrados, propietarios para facilitar que cualquiera que tenga una pregunta de negocio que responder, sea capaz de hacerlo sin necesidad de convertirse en un experto en sistemas o analítica.

 

La idea es que los usuarios puedan resolver más rápido los retos de negocio que enfrentan en el día a día de forma independiente y con una plataforma fácil de usar, replicable y poderosa.

 

Así aprovechan la experiencia que tienen en el negocio sin invertir demasiado tiempo en aprender una nueva tecnología o lenguaje de programación, mientras comienzan a mejorar sus procesos, descubrir nuevos insights relevantes y tomar mejores decisiones basadas en datos.

 

Dentro de todas las posibilidades que Alteryx ofrece, me enfocaré en la parte de Aprendizaje Automático en esta ocasión.

 

Alteryx Machine Learning

 

En Alteryx es posible crear modelos predictivos de varias formas diferentes, la diferencia principal entre ellas es el nivel de automatización y opciones disponibles para la creación de los modelos.

 

Primero tenemos las herramientas de la paleta predictiva, para las que requerimos preparar los datos, investigarlos y seleccionar las variables predictoras adecuadas manualmente, sin asistentes que nos den sugerencias.

 

 

Garabujo7_2-1659554360220.png

 

 

El siguiente es el add-on de Intelligence Suite que cuenta con el modelado asistido, el cual nos lleva de la mano a través de todo el proceso después de seleccionar la variable objetivo.

 

Si quieren ver más detalles acerca esta funcionalidad, pueden leer este artículo que escribí hace algún tiempo.

 

 

 

Garabujo7_3-1659554360223.png

 

 

El tercero, y del que hablare en este artículo es Alteryx Machine Learning, una plataforma en la nube que nos permite crear y evaluar modelos predictivos fácilmente y enfocarnos más en los resultados y su aplicación de negocios que en preocuparnos por todo el proceso de creación y ajuste del modelo.

 

El comienzo: Obtener los datos

 

Una parte sustancial del trabajo de creación de un modelo predictivo se consume en la preparación de los datos.

 

Este proceso incluye entre otros:

 

  1. Acceso a los datos de diversas fuentes, archivos y aplicaciones
  2. Limpiarlos, estandarizarlos
  3. Darles formato
  4. Unirlos (sin necesidad de saber SQL)

 

Aquí es donde nuestra plataforma comienza a demostrar su potencial y capacidad para hacerlo todo en una sola solución.

 

No voy a entrar en los detalles del ya conocido Alteryx Designer y sus capacidades. Sólo resaltare su integración para que podamos usar cualquier tipo de dato en la plataforma de Alteryx Machine Learning.

 

Integración con Alteryx Designer

 

Después de preparar los datos en Alteryx Designer, para subirlos a la plataforma de Alteryx Machine Learning necesitamos una entrada de datos.

 

Para este ejemplo utilizaré datos de demanda para reservas de hotel. El objetivo será predecir cuáles reservas serán canceladas y qué acciones podemos tomar para prevenirlas o anticiparlas para mitigar el riesgo de pérdidas económicas para el hotel y poder planear mejor la demanda de los clientes.

 

Con la herramienta Machine Learning Send (incluida en el costo), rápidamente subimos los datos a la plataforma.

 

 

Garabujo7_4-1659554360223.png

 

 

La plataforma Alteryx Machine Learning

 

La solución está orientada hacia la productividad de los ciudadanos científicos de datos.

 

La mayor parte del proceso es dirigido por el asistente para simplificar muchas de las tareas iterativas y repetitivas que tenemos que tomar para crear un buen modelo predictivo.

 

Como sabemos, el modelado predictivo es un proceso que combina arte y ciencia. Decisiones de quién crea el modelo, combinadas con experiencia en el negocio y conocimiento de los modelos y las técnicas estadísticas. Es por eso que el desarrollo puede alargarse demasiado y complicarse enormemente.

 

En cambio, lo que ofrece la plataforma de Alteryx es automatizar esa parte del proceso, sólo seleccionando algunos parámetros y dejando más tiempo para analizar los resultados, entenderlos, justificarlos, aplicarlos al negocio y, muy importante, poder explicarlos al resto de las personas.

 

El desarrollo del modelo está dividido en 5 pasos:

 

  1. Preparación de datos
  2. Hallazgos en los datos
  3. Auto modelado
  4. Evaluación del modelo
  5. Exportar y calificar

 

Volviendo al resto de la plataforma agregaría un sexto paso, implementar en producción el modelo, ya sea a través de la interfase web o exponiendo una API rest para que sea consumido por terceros.

 

Ayuda contextual

 

Antes de entrar en materia, una parte importante, ayuda.

 

A lo largo del proceso, la plataforma nos ofrece ayuda contextual que podemos consultar fácilmente para entender cualquier paso que estemos realizando.

 

Por ejemplo, al configurar el auto-modelado, podemos hacer clic en el signo de admiración y nos muestra la explicación del paso que queremos seleccionar junto con una recomendación de uso.

 

 

Garabujo7_5-1659554360225.png

 

 

Además de eso, si hacemos clic en el librito que está en la parte superior derecha de la pantalla, podemos acceder al modo de educación.

 

Ahí podremos encontrar explicaciones de todos los elementos de la plataforma.

 

Con está funcionalidad podremos entender lo que hace la solución, y si no conocemos acerca de las métricas y los procesos que realiza, nos será útil para aprender más acerca de ciencia de datos al mismo tiempo que creamos modelos predictivos para resolver nuestros retos de negocio.

 

 

 

Garabujo7_6-1659554360232.png

 

 

La ventaja es que si no usamos está característica, podemos deshabilitarla en cualquier momento.

 

Prep Data

 

Mencioné al principio que parte de la preparación de los datos se puede hacer en Designer, sobre todo la creación de la tabla base sobre la que crearemos el modelo. En AML podemos explorar los datos para entenderlos mejor antes de crear los modelos predictivos.

 

 

Garabujo7_7-1659554360234.png

 

 

 

Primero tenemos los datos, con una opción para ver el perfil, tipo de dato, número de filas y columnas, así como la calidad general de los mismos.

 

 

Garabujo7_8-1659554360244.png

 

 

Si encontramos un error, la plataforma nos avisa y podemos corregirlo. Por ejemplo, tenemos el campo ID, que no es útil para crear el modelo predictivo.

 

Debido a eso nos muestra un mensaje y si hacemos clic en ver detalles, podremos revisarlos en la parte inferior de la pantalla.

Aquí nos muestra el hallazgo y la acción recomendada a tomar.

 

 

 

Garabujo7_9-1659554360246.png

 

 

Al hacer clic en arreglar los datos, seleccionamos la columna que queremos limpiar y nos aparece la opción para descartarla de nuestro análisis.

 

 

 

Garabujo7_10-1659554360248.png

 

Garabujo7_11-1659554360250.png

 

 

Salud de los datos

 

Después de explorar nuestro conjunto de datos, podemos revisar su salud. Enfocados en valores ausentes en filas, columnas y valores atípicos.

 

Este conjunto de datos, por ejemplo, no tiene valores ausentes en filas ni en columnas.

 

Sin embargo, donde tenemos oportunidad de mejora es en la distribución por columna y el 83% de las columnas que tienen valores atípicos o fuera de rango. Debido a ello, la salud de los datos tiene una calificación de C.

 

 

 

Garabujo7_12-1659554360260.png

 

 

Está información es útil debido a que la distribución y los valores atípicos pueden afectar de manera negativa el resultado de nuestro modelo.

 

Estas son parte de las tareas en las que tenemos que decidir y hacer multitud de pruebas para obtener buenos resultados de nuestros modelos, lo bueno es que la plataforma AML de Alteryx hace esa parte por nosotros de forma automática para aprovechar de la mejor forma los datos que tenemos.

 

 

ricky ricon.gif

 

 

En la siguiente etapa:

 

  • Seleccionaremos la variable objetivo
  • El método de aprendizaje automático que usaremos
  • Revisaremos la correlación en los datos con una matriz o un diagrama de cuerdas
  • Exploraremos los valores atípicos
  • La distribución de nuestra variable objetivo


Conclusión

 

En esta primera parte revisamos el inicio del proceso de creación de un modelo de aprendizaje automático.

 

  • Obtener los datos
  • Integración con Alteryx Designer
  • Preparar datos
  • salud de los datos
  • hallazgos en los datos

 

No se pierdan la segunda parte de esta serie.

 

Etiquetas