Blog

Visiones e ideas de las mentes más brillantes en el campo del análisis.
Garabujo7
Alteryx
Alteryx

 

credit to giphy.comcredit to giphy.com

 

 

 

 

Si eres como yo y nunca has hecho un modelo analítico o no tienes el tiempo suficiente para dedicarlo a aprender estadística, ciencia de datos, programación, base de datos, SQL… pero si conoces el negocio y tienes preguntas que te gustaría responder y no has podido o dependes de otras áreas/profesionales para hacerlo, esto te interesa.

 

 

 

credit to giphy.comcredit to giphy.com

 

 

 

El ciudadano científico de datos

 

Primero que nada hay que hablar de un nuevo rol acuñado por Gartner, el científico de datos ciudadano que es la persona que le agrega valor al proceso de análisis y es capaz de simplificarlo empleando modelos analíticos para diagnósticos avanzados o con capacidades predictivas y prescriptivas; pero no cuenta con la formación académica ni su función en el trabajo está relacionada con el ámbito de la estadística, analítica, tecnología o base de datos.

 

Por lo tanto, el modelado asistido es la plataforma por antonomasia para el científico de datos ciudadano ya que le permite desarrollar los análisis que necesita sin necesidad de tener la formación en ciencia de datos o estadística avanzada que se requiere, está más bien orientada a responder las preguntas de negocio del día a día de forma rápida y con el gran valor añadido de irnos capacitando al mismo tiempo.

 

 

Garabujo7_3-1594418543530.png

 

 

El modelado asistido va explicando y definiendo cada uno de los pasos que toma para que nos quede claro lo que está haciendo y las razones por las que tomó esas decisiones incluso nos da la oportunidad de hacer las selecciones de forma manual si no estamos de acuerdo con lo que recomienda, personalizando aún más el modelo.

 

 

 

Garabujo7_4-1594418543531.png

 

 

 

A continuación, un ejemplo de una explicación de la plataforma para modelado asistido.

 

 

 

Garabujo7_5-1594418543532.png

 

Garabujo7_6-1594418543534.png

 

 

Vemos que no sólo nos da recomendaciones, las explica y nos permite decidir si la tomamos o no, haciéndola más flexible.

 

Metodología CRISP-DM

 

Como referencia, la plataforma de Modelado Asistido está basada en la metodología CRISP-DM (Cross Industry Standard Process for Data Mining) que incluye 5 pasos que se deben seguir en proyectos para análisis de datos de cualquier industria para crear un procesos sistemático y repetible.

 

 

 

Garabujo7_7-1594418543560.png

 

 

 

 

 

Bienvenidos al modelado asistido

 

Descarga ahora mismo una versión de prueba.

 

Como parte de la nueva versión 2020.2 de Alteryx está el modelado asistido, una nueva categoría de bloques analíticos en la categoría de aprendizaje automático que es parte del complemento Intelligence Suite y que incluye una categoría de Minería de Textos de la cual hablaré en otro artículo.

 

 

 

Garabujo7_0-1628779727994.png

 

 

 

¿Cómo puedo usarlo?

 

Siendo un componente adicional, es necesaria una licencia para poderlo utilizar.

 

Si descargan la versión 2020.2 de Alteryx, los bloques analíticos de aprendizaje automático y minería de textos aparecerán con un candado al lado y no se podrán usar.

 

Garabujo7_10-1594418577702.png

 

 

Si ya tienes tu licencia de Intelligence Suite, puedes activarla para comenzar a usarla, si tienes dudas de cómo hacerlo puedes consultar este artículo: Instalar y configurar Alteryx Designer

 

La buena noticia es que Intelligence Suite también tiene una versión de prueba.

 

Para comenzar necesitas datos.

 

Garabujo7_11-1594418577703.png

 

 

Para este artículo utilizaré un conjunto de ejemplo que incluye datos de clientes de una Telco.

 

El siguiente paso es colocar el bloque analítico Modelado Asistido, que se encuentra en la pestaña de aprendizaje automático.

 

 

 

Garabujo7_1-1628779763846.png

 

Garabujo7_13-1594418577710.png

 

Garabujo7_14-1594418577712.png

 

 

 

Para comenzar el modelado asistido hay que hacer clic en Ejecutar o con el atajo CTRL -> R.

 

 

 

Garabujo7_15-1594418577714.png

 

 

Clic en Iniciar Modelado Asistido.

 

 

Garabujo7_16-1594418577719.png

 

 

 

Muestra la pantalla inicial con una explicación del proceso para crear el modelo y una explicación de cada etapa.

 

 

 

Garabujo7_17-1594418577730.png

 

 

Paso 1: Seleccionar la variable objetivo

 

 

Selecciona Comenzar a generar y nos lleva a la pantalla para seleccionar la variable objetivo, qué es lo que queremos predecir.

 

 

Garabujo7_18-1594418577741.png

 

 

Lo interesante del Modelado Asistido es que al seleccionar la variable objetivo te muestra una explicación del tipo de variable y ejemplos de lo que se puede hacer con esta clase de dato.

 

 

Para seleccionar la variable que queremos predecir, podemos preguntarnos qué buscamos responder con los datos y es todo, hay que hacer clic en Siguiente.

 

 

Al seleccionar el campo objetivo, automáticamente escoge el tipo de método de aprendizaje automático y nos da ejemplos dónde puede aplicar.

 

 

 

Garabujo7_19-1594418615694.png

 

 

En este caso lo que queremos predecir es una clasificación, el modelo hará la predicción de acuerdo a las categorías disponibles que en este caso son dos, binarias o pueden ser más como alto, bajo y medio.

 

 

Hacemos clic en siguiente para ir al paso subsecuente.

 

Paso 2: Seleccionar el nivel de automatización

 

 

 

Garabujo7_2-1628779813343.png

 

 

Puede ser Paso a paso o Automático.

 

Para esta guía usaremos Paso a paso.

 

 

Paso 3: Configurar tipos de datos

 

 

En este paso se asignará el correcto para los datos del conjunto que utilizaremos para modelar.

 

 

Garabujo7_20-1594418615710.png

 

 

 

De acuerdo con contenido, el Modelado Asistido nos recomendará que descartemos algunos o les cambiemos el tipo como en el caso de los campos que son ID’s, ya que no aportan información para la predicción.

 

 

 

Garabujo7_21-1594418615726.png

 

 

 

Analiza el contenido de la columna y recomienda una acción a tomar.

 

 

 

Garabujo7_23-1594418615729.png

 

 

 

Nos explica por qué la descarta.

 

 

Garabujo7_24-1594418615730.png

 

 

 

Seleccionamos siguiente para pasar al paso 4.

 

Paso 4: Limpiar los valores faltantes

 

Los campos con valores nulos o vacíos generan problemas para crear modelos analíticos, como parte del proceso el Modelado Asistido nos aconseja estrategias de imputación para limitar el impacto de esos datos sobre los resultados del modelo.

 

 

 

Garabujo7_25-1594418615740.png

 

 

 

Imputar quiere decir asignar valores a un campo vacío o nulo, para hacerlo se puede descartar por completo la variable si no aporta información o tiene muy pocos valores o cambiarlo por la mediana, moda o media del resto de los valores. De está forma podemos aprovechar esos campos que tienen información incompleta.

 

 

 

Garabujo7_26-1594418615742.png

 

Garabujo7_27-1594418615743.png

 

Garabujo7_28-1594418615744.png

 

 

 

Hacemos clic en siguiente para continuar con el proceso.

 

Paso 5: Seleccionar las características

 

De las variables que tiene el modelo, podemos escoger las que tienen una mayor asociación con lo que buscamos predecir para que el resultado sea más preciso.

 

 

 

Garabujo7_29-1594418615760.png

 

 

En este caso nos indica que una variable está muy débilmente asociada con el objetivo de acuerdo con el análisis Gini y GKT.

 

 

 

Garabujo7_30-1594418615760.png

 

Garabujo7_31-1594418615762.png

 

 

Y la explicación de las técnicas usadas para evaluar los detalles del predictor.

 

Los predictores son las variables que nos ayudarán a predecir el objetivo.

 

 

Garabujo7_32-1594418615764.png

 

 

Hacemos clic en siguiente para seguir adelante.

 

Paso 6: Seleccionar algoritmos

 

El último paso nos permite seleccionar los algoritmos que queremos utilizar para la predicción, cumpliendo así el teorema de ciencia de datos que dice “no hay almuerzo gratis”, ningún algoritmo es perfecto para todos los casos, hay que probar diferentes para obtener los mejores resultados que se adapten a los datos y situación específica.

 

 

Garabujo7_33-1594418615775.png

 

 

Para las variables categóricas tenemos disponibles 4 algoritmos

 

  • Regresión logística

 

  • Árbol de decisión

 

  • Bosque aleatorio

 

  • XGBoost

 

Si se trata de una variable continua (numérica) tenemos 3 algoritmos a tu disposición

 

  • Regresión lineal

 

  • Árbol de decisión

 

  • Bosque aleatorio

 

 

Cada uno cuenta con su definición, ventajas, desventajas y casos prácticos donde se aplica.

 

 

Garabujo7_34-1594418615779.png

 

 

Hacemos clic en Ejecutar los algoritmos seleccionados para entrenarlos.

 

Comparación de modelos

 

Una vez que concluye el entrenamiento de los modelos seleccionados, el Modelado Asistido presenta los resultados globales e individuales junto con una explicación de las métricas y una recomendación del mejor modelo de acuerdo con su exactitud y tiempo de procesamiento.

 

 

Garabujo7_35-1594418615795.png

 

 

En este caso la plataforma aconseja que el mejor modelo es el XGBoost con una precisión de 80% y un tiempo de procesamiento de 13 segundos.

 

Podemos también evaluar las matrices de confusión que nos explican la capacidad del modelo para predecir cada opción, eso es importante dependiendo del caso de uso que estemos analizando.

 

 

Garabujo7_36-1594418615798.png

 

 

 

La importancia de las variables es otra característica que se presenta.

 

 

Garabujo7_37-1594418615800.png

 

 

Está nos habla de cuáles variables, de acuerdo con cada modelo son más importantes para predecir la variable objetivo, importante para enfocarnos en las variables más relevantes y generar acciones enfocadas en las que pueden tener más impacto.

 

¿Eres desarrollador y prefieres escribir tu código a mano porque te permite tener más control?, no hay problema, el Modelado Asistido está aquí para ayudarte, puedes crear prototipos o borradores de los modelos que requieres y exportarlos a Python para crear la base de tu modelo sin esfuerzo, con sólo unos cuantos clics.

Selecciona Exportar modelo a Python.

 

 

Garabujo7_38-1594418615803.png

 

Garabujo7_39-1594418615803.png

 

 

 

Y ahora podrás ver el modelo en código Python dentro de Alteryx Designer para comenzar a usarlo de inmediato.

 

Para terminar el proceso selecciona el modelo ganador, haciendo clic en la palomita y luego has clic en Agregar modelos y continuar al flujo de trabajo.

 

 

 

Garabujo7_40-1594418615806.png

 

Garabujo7_41-1594418615807.png

 

 

 

Eso crea un flujo de trabajo completo que puedes utilizar para calificar tus datos, ya sea por lotes (batch) con Designer, Alteryx Server o integrado dentro de otro sistema mediante la API Rest del Altyeryx Server e incluso implementarlo para calificar en tiempo real mediante Alteryx Promote.

 

 

 

Garabujo7_42-1594418615812.png

 

 

Así se muestra todo el proceso del modelo en código Python dentro del Jupyter Notebook incluido dentro del bloque analítico de Python en Alteryx Designer.

 

 

Garabujo7_43-1594418615813.png

 

 

Garabujo7_44-1594418615818.png

 

 

 

Predicciones

 

Para hacer las predicciones después del entrenamiento del modelo, podemos conectar el nuevo conjunto de datos con el bloque analítico de predicción para asignarle una probabilidad de abandono a cada registro.

 

Garabujo7_45-1594418615819.png

 

Garabujo7_46-1594418615821.png

 

 

Incluso una vez terminado el modelo, podemos modificar los parámetros para afinarlo aún más, lo que le aporta una gran flexibilidad al proceso.

 

 

Garabujo7_47-1594418615837.png

 

 

Y sin olvidar que te sigue explicando cada parámetro que seleccionas.

 

 

Garabujo7_48-1594418615844.png

 

 

 

Justificar las decisiones mediante la auto-documentación

 

Ya creaste tu primer modelo analítico, no eres experto en esto, ¿cómo puedes justificar los resultados o explicarlos sobre todo a los expertos en ciencia de datos?

 

 

 

gif retrieved from giphy.comgif retrieved from giphy.com

 

 

No te preocupes, Modelado Asistido está aquí para ayudarte.

 

Al mismo tiempo que el asistente fue mostrándonos lo que iba a hacer en cada etapa, al terminar el proceso creó el flujo analítico o analytical pipeline con todos los pasos y las decisiones que tomamos para poder mostrarlo y justificar el trabajo tanto como con los expertos como con los posibles auditores y revisores de calidad que requieran verificar cómo se están tomando las decisiones.

 

 

Garabujo7_50-1594418615993.png

 

 

El flujo incluye todos los pasos y podemos revisarlos e incluso modificarlos si es necesario.

 

Si recuerdan, antes nos indicó que descartáramos la variable servicioTelefono y aquí esta la misma decisión en el flujo.

 

 

Garabujo7_51-1594418615996.png

 

 

 

Adicionalmente, si quieres discutir los resultados con más personas o en otro contexto puedes exportar los reportes de resultados en HTML y llevarlos contigo a esa reunión importante.

 

 

Garabujo7_52-1594418615997.png

 

 

 

Esta es la verdadera inteligencia aumentada, la capacidad de aprovechar la propia experiencia y utilizar el potencial del aprendizaje automático.

 

Lo que en verdad te da el poder…

 

 

 

Tomado de GiphyTomado de Giphy

 

 

Y la emoción de resolver con Alteryx.

 

 

Etiquetas