En la primera entrega de esta serie hablamos de:
En esta segunda entrega de tres, hablaremos de la forma de configurar la plataforma para crear los modelos predictivos. Comenzando con:
Aquí es donde escogemos la variable que queremos predecir, este es el resultado que esperamos obtener de nuestros modelos de aprendizaje automático.
En este ejemplo, la variable objetivo será el estatus de la reserva. Es una variable categórica puesto que tiene 2 valores o categorías que nos interesa predecir.
Cancelado y no cancelado. El objetivo de crear este modelo predictivo será predecir las reservar que pueden ser canceladas y las que no lo serán.
Otro detalle muy a tomar en cuenta será conocer cuáles son las razones por las que algunas reservas se cancelan y otras se mantienen, lo cual es muy importante para la salud del negocio.
La siguiente opción que debemos seleccionar es el método de aprendizaje automático que aplicaremos.
Tenemos 3 posibilidades:
Nos será útil para asignar una categoría a cada reserva. Las opciones pueden ser 2 o más.
En nuestro caso, será el estatus de la reserva y tiene 2 posibilidades: Cancelada y No Cancelada.
Otra forma de verlo es, ¿cuál es el objetivo de nuestro análisis?, saber cuáles y qué características tienen las reservas que serán canceladas. Así podremos anticiparnos y tomar medidas para reducir las cancelaciones, disminuir el costo de reservas canceladas y buscar que la mayoría de las reservas se mantengan en el tiempo.
Cuando nuestro objetivo es predecir un número o cantidad, aplicamos una técnica de regresión que nos permitirá ver cuál es el número más probable que obtendremos, así como las causas que lo generan.
En este ejemplo podría ser el costo del boleto o la cantidad de huéspedes que recibirá el hotel.
La tercera técnica con la que cuenta la plataforma nos da la posibilidad de predecir la cantidad de personas que se hospedaran durante los siguientes 6 meses, por ejemplo. Esta proyectará los resultados en el tiempo para entender cómo se comportarán, ligados a los períodos siguientes.
Habiendo seleccionado la variable objetivo y la técnica que emplearemos. El paso siguiente es revisar las correlaciones entre las variables.
Este paso es dónde podremos eliminar variables que no aportan suficiente información para predecir nuestro objetivo, o que son muy similares en la forma que influyen en el resultado, por lo que entenderlas individualmente es muy difícil.
Aquí nos muestra la tradicional matriz de correlación. Lo malo de esta gráfica es que, si tenemos gran número de columnas, es difícil visualizar todas las correlaciones fácilmente.
Para simplificarlo, la plataforma nos da dos opciones, seleccionar 2 variables individualmente y analizarlas.
Así podemos revisar la correlación entre dos variables con mayor detalle.
La otra forma de visualizar las correlaciones es mediante el diagrama de cuerdas, que nos permite ver las relaciones más fácilmente, aunque sean varias variables.
Lo interesante es que podemos ajustar el umbral de correlación para enfocarnos sólo en las variables que tienen mayor correlación.
Así, podemos analizar las variables que tienen alta correlación de forma sencilla y simple sin importar el número de las mismas.
Los valores fuera de rango o atípicos pueden influir negativamente en los resultados de nuestro modelo y normalmente requieren análisis adicional para entenderlos.
La plataforma permite remover los valores atípicos, sin embargo, dependiendo de la decisión del analista, podemos mantener todas los valores atípicos y la plataforma los tratará de forma adecuada automáticamente.
Una vez que seleccionamos la variable objetivo, podemos analizar su distribución para identificar si está desbalanceada o equilibrada para el modelo.
En este caso, nuestra variable objetivo tiene una distribución aceptable.
En caso de que la variable estuviera desbalanceada, una categoría con un mayor número de valores que la otra. La plataforma aplicará las técnicas apropiadas para aprovecharlas al máximo en el momento de crear los modelos.
Esos detalles los veremos más adelante cuando el pipeline de cada modelo se crea.
Aquí es donde seleccionamos los parámetros que se usarán para entrenar los modelos de aprendizaje automático.
El primero es escoger la métrica que usaremos para evaluar los resultados.
Tenemos una variedad de métricas disponibles para usar la que mejor se adapte al objetivo que estamos buscando. Los modelos que la plataforma recomendará se verán influenciados por la métrica seleccionada, diferentes métricas pueden tener distintos modelos recomendados.
Las ocho métricas disponibles son:
Para controlar la duración del entrenamiento de los modelos, podemos limitar el tiempo de creación de nuevos pipelines para cada modelo que seleccionamos.
Para asegurar que los modelos den los mejores resultados en producción, podemos seleccionar el número de K-Folds que usaremos para la validación cruzada. Por omisión, la plataforma recomienda 3.
Los ensambles son combinaciones de modelos que pueden crear mejores resultados, para eso, podemos seleccionar la siguiente opción:
La última, es el porcentaje de datos que reservaremos para la evaluación del modelo final.
El número recomendado por la plataforma es 20%.
Cuando desarrollamos modelos de aprendizaje automático, otro de los procesos fundamentales para la obtener buenos resultados es la Ingeniería de Características.
La ingeniería de características se refiere a la creación de nuevas variables que no existían en el conjunto de datos original. Este proceso es de prueba y error para encontrar las mejores características o variables que nos ayuden a mejorar los resultados.
Un ejemplo de creación de nuevas variables es calcular la edad de los clientes cuando sólo contamos con su fecha de nacimiento. La edad no existía y la creamos porque aporta más información para el modelo.
Aquí la plataforma automatiza por completo el proceso de crear nuevas variables a través de Primitivas, que son fórmulas que se aplican a las variables existentes, que luego se usarán para entrenar los modelos, tomando las que son útiles para el objetivo y descartando las que no aportan valor al proceso.
La lista de Primitivas disponibles son 38, y entre ellas tenemos por ejemplo el logaritmo natural que podemos aplicar para transformar los números.
En esta segunda parte revisamos la configuración y creación de la plataforma.
En la tercera y última revisaremos la parte de los resultados de los modelos:
Debe ser un usuario registrado para añadir un comentario aquí. Si ya está registrado, inicie sesión. Si todavía no está registrado, hágalo e inicie sesión.