Free Trial

Blog

Visiones e ideas de las mentes más brillantes en el campo del análisis.
Garabujo7
Alteryx
Alteryx

totrugas ninja.gif

 

En la primera entrega de esta serie hablamos de:

  • Obtener los Datos
  • Integración con Alteryx Designer
  • Prep Data
  • Salud de los Datos
  • Hallazgos en los Datos

En esta segunda entrega de tres, hablaremos de la forma de configurar la plataforma para crear los modelos predictivos. Comenzando con:

 

Selección de la variable objetivo

 

Aquí es donde escogemos la variable que queremos predecir, este es el resultado que esperamos obtener de nuestros modelos de aprendizaje automático.

 

En este ejemplo, la variable objetivo será el estatus de la reserva. Es una variable categórica puesto que tiene 2 valores o categorías que nos interesa predecir.

 

Cancelado y no cancelado. El objetivo de crear este modelo predictivo será predecir las reservar que pueden ser canceladas y las que no lo serán.

 

Otro detalle muy a tomar en cuenta será conocer cuáles son las razones por las que algunas reservas se cancelan y otras se mantienen, lo cual es muy importante para la salud del negocio.

 

 

Garabujo7_0-1659556457738.png

 

 

 

La siguiente opción que debemos seleccionar es el método de aprendizaje automático que aplicaremos.

Tenemos 3 posibilidades:

 

  1. Clasificación
  2. Regresión
  3. Regresión de series de tiempo

 

Clasificación

 

Nos será útil para asignar una categoría a cada reserva. Las opciones pueden ser 2 o más.

 

En nuestro caso, será el estatus de la reserva y tiene 2 posibilidades: Cancelada y No Cancelada.

 

Otra forma de verlo es, ¿cuál es el objetivo de nuestro análisis?, saber cuáles y qué características tienen las reservas que serán canceladas. Así podremos anticiparnos y tomar medidas para reducir las cancelaciones, disminuir el costo de reservas canceladas y buscar que la mayoría de las reservas se mantengan en el tiempo.

 

Regresión

 

Cuando nuestro objetivo es predecir un número o cantidad, aplicamos una técnica de regresión que nos permitirá ver cuál es el número más probable que obtendremos, así como las causas que lo generan.

 

En este ejemplo podría ser el costo del boleto o la cantidad de huéspedes que recibirá el hotel.

 

 

Regresión de Series de Tiempo

 

La tercera técnica con la que cuenta la plataforma nos da la posibilidad de predecir la cantidad de personas que se hospedaran durante los siguientes 6 meses, por ejemplo. Esta proyectará los resultados en el tiempo para entender cómo se comportarán, ligados a los períodos siguientes.

 

 

Correlaciones

 

Habiendo seleccionado la variable objetivo y la técnica que emplearemos. El paso siguiente es revisar las correlaciones entre las variables.

 

Este paso es dónde podremos eliminar variables que no aportan suficiente información para predecir nuestro objetivo, o que son muy similares en la forma que influyen en el resultado, por lo que entenderlas individualmente es muy difícil.

 

 

Matriz de correlación

 

Aquí nos muestra la tradicional matriz de correlación. Lo malo de esta gráfica es que, si tenemos gran número de columnas, es difícil visualizar todas las correlaciones fácilmente.

 

 

Garabujo7_1-1659556512248.png

 

 

Para simplificarlo, la plataforma nos da dos opciones, seleccionar 2 variables individualmente y analizarlas.

 

 

 

Garabujo7_2-1659556512251.png

 

 

Así podemos revisar la correlación entre dos variables con mayor detalle.

 

 

Diagrama de Cuerdas

 

La otra forma de visualizar las correlaciones es mediante el diagrama de cuerdas, que nos permite ver las relaciones más fácilmente, aunque sean varias variables.

 

Garabujo7_3-1659556512258.png

 

 

Lo interesante es que podemos ajustar el umbral de correlación para enfocarnos sólo en las variables que tienen mayor correlación.

 

 

 

Garabujo7_4-1659556512259.png

 

 

 

Así, podemos analizar las variables que tienen alta correlación de forma sencilla y simple sin importar el número de las mismas.

 

 

Valores Atípicos

 

Los valores fuera de rango o atípicos pueden influir negativamente en los resultados de nuestro modelo y normalmente requieren análisis adicional para entenderlos.

 

La plataforma permite remover los valores atípicos, sin embargo, dependiendo de la decisión del analista, podemos mantener todas los valores atípicos y la plataforma los tratará de forma adecuada automáticamente.

 

 

 

Garabujo7_5-1659556512269.png

 

 

 

Variable Objetivo

 

Una vez que seleccionamos la variable objetivo, podemos analizar su distribución para identificar si está desbalanceada o equilibrada para el modelo.

 

En este caso, nuestra variable objetivo tiene una distribución aceptable.

 

 

 

Garabujo7_6-1659556512270.png

 

 

En caso de que la variable estuviera desbalanceada, una categoría con un mayor número de valores que la otra. La plataforma aplicará las técnicas apropiadas para aprovecharlas al máximo en el momento de crear los modelos.

 

Esos detalles los veremos más adelante cuando el pipeline de cada modelo se crea.

 

 

Entrenamiento de los Modelos

 

Aquí es donde seleccionamos los parámetros que se usarán para entrenar los modelos de aprendizaje automático.

 

 

 

Garabujo7_7-1659556512273.png

 

 

El primero es escoger la métrica que usaremos para evaluar los resultados.

 

 

Métricas para Evaluación de los Modelos

 

Tenemos una variedad de métricas disponibles para usar la que mejor se adapte al objetivo que estamos buscando. Los modelos que la plataforma recomendará se verán influenciados por la métrica seleccionada, diferentes métricas pueden tener distintos modelos recomendados.

 

Las ocho métricas disponibles son:

 

 

Garabujo7_8-1659556512275.png

 

 

 

Búsqueda de Modelos

 

Para controlar la duración del entrenamiento de los modelos, podemos limitar el tiempo de creación de nuevos pipelines para cada modelo que seleccionamos.

 

 

Garabujo7_9-1659556512276.png

 

 

Para asegurar que los modelos den los mejores resultados en producción, podemos seleccionar el número de K-Folds que usaremos para la validación cruzada. Por omisión, la plataforma recomienda 3.

 

 

Ensambles de Modelos

 

Los ensambles son combinaciones de modelos que pueden crear mejores resultados, para eso, podemos seleccionar la siguiente opción:

 

 

Garabujo7_10-1659556512276.png

 

 

 

Holdout

 

La última, es el porcentaje de datos que reservaremos para la evaluación del modelo final.

 

 

Garabujo7_11-1659556512278.png

 

 

El número recomendado por la plataforma es 20%.

 

 

Ingeniería de Características

 

Cuando desarrollamos modelos de aprendizaje automático, otro de los procesos fundamentales para la obtener buenos resultados es la Ingeniería de Características.

 

La ingeniería de características se refiere a la creación de nuevas variables que no existían en el conjunto de datos original. Este proceso es de prueba y error para encontrar las mejores características o variables que nos ayuden a mejorar los resultados.

 

Un ejemplo de creación de nuevas variables es calcular la edad de los clientes cuando sólo contamos con su fecha de nacimiento. La edad no existía y la creamos porque aporta más información para el modelo.

 

Aquí la plataforma automatiza por completo el proceso de crear nuevas variables a través de Primitivas, que son fórmulas que se aplican a las variables existentes, que luego se usarán para entrenar los modelos, tomando las que son útiles para el objetivo y descartando las que no aportan valor al proceso.

 

La lista de Primitivas disponibles son 38, y entre ellas tenemos por ejemplo el logaritmo natural que podemos aplicar para transformar los números.

 

 

Garabujo7_12-1659556512282.png

 

 

 

Conclusión

 

En esta segunda parte revisamos la configuración y creación de la plataforma.

 

  • Selección de variable objetivo
  • Métodos de aprendizaje automático
  • Correlaciones
  • Valores Atípicos
  • Variable Objetivo
  • Entrenamiento de los Modelos
  • Métricas para Evaluación de los Modelos
  • Ingeniería de Características

 

En la tercera y última revisaremos la parte de los resultados de los modelos:

 

  • Auto Modelado
  • Evaluación de los Modelos
  • La Exportación y Calificación

 

Etiquetas