credit to giphy.com
Si eres como yo y nunca has hecho un modelo analítico o no tienes el tiempo suficiente para dedicarlo a aprender estadística, ciencia de datos, programación, base de datos, SQL… pero si conoces el negocio y tienes preguntas que te gustaría responder y no has podido o dependes de otras áreas/profesionales para hacerlo, esto te interesa.
credit to giphy.com
Primero que nada hay que hablar de un nuevo rol acuñado por Gartner, el científico de datos ciudadano que es la persona que le agrega valor al proceso de análisis y es capaz de simplificarlo empleando modelos analíticos para diagnósticos avanzados o con capacidades predictivas y prescriptivas; pero no cuenta con la formación académica ni su función en el trabajo está relacionada con el ámbito de la estadística, analítica, tecnología o base de datos.
Por lo tanto, el modelado asistido es la plataforma por antonomasia para el científico de datos ciudadano ya que le permite desarrollar los análisis que necesita sin necesidad de tener la formación en ciencia de datos o estadística avanzada que se requiere, está más bien orientada a responder las preguntas de negocio del día a día de forma rápida y con el gran valor añadido de irnos capacitando al mismo tiempo.
El modelado asistido va explicando y definiendo cada uno de los pasos que toma para que nos quede claro lo que está haciendo y las razones por las que tomó esas decisiones incluso nos da la oportunidad de hacer las selecciones de forma manual si no estamos de acuerdo con lo que recomienda, personalizando aún más el modelo.
A continuación, un ejemplo de una explicación de la plataforma para modelado asistido.
Vemos que no sólo nos da recomendaciones, las explica y nos permite decidir si la tomamos o no, haciéndola más flexible.
Como referencia, la plataforma de Modelado Asistido está basada en la metodología CRISP-DM (Cross Industry Standard Process for Data Mining) que incluye 5 pasos que se deben seguir en proyectos para análisis de datos de cualquier industria para crear un procesos sistemático y repetible.
Descarga ahora mismo una versión de prueba.
Como parte de la nueva versión 2020.2 de Alteryx está el modelado asistido, una nueva categoría de bloques analíticos en la categoría de aprendizaje automático que es parte del complemento Intelligence Suite y que incluye una categoría de Minería de Textos de la cual hablaré en otro artículo.
Siendo un componente adicional, es necesaria una licencia para poderlo utilizar.
Si descargan la versión 2020.2 de Alteryx, los bloques analíticos de aprendizaje automático y minería de textos aparecerán con un candado al lado y no se podrán usar.
Si ya tienes tu licencia de Intelligence Suite, puedes activarla para comenzar a usarla, si tienes dudas de cómo hacerlo puedes consultar este artículo: Instalar y configurar Alteryx Designer
La buena noticia es que Intelligence Suite también tiene una versión de prueba.
Para comenzar necesitas datos.
Para este artículo utilizaré un conjunto de ejemplo que incluye datos de clientes de una Telco.
El siguiente paso es colocar el bloque analítico Modelado Asistido, que se encuentra en la pestaña de aprendizaje automático.
Para comenzar el modelado asistido hay que hacer clic en Ejecutar o con el atajo CTRL -> R.
Clic en Iniciar Modelado Asistido.
Muestra la pantalla inicial con una explicación del proceso para crear el modelo y una explicación de cada etapa.
Selecciona Comenzar a generar y nos lleva a la pantalla para seleccionar la variable objetivo, qué es lo que queremos predecir.
Lo interesante del Modelado Asistido es que al seleccionar la variable objetivo te muestra una explicación del tipo de variable y ejemplos de lo que se puede hacer con esta clase de dato.
Para seleccionar la variable que queremos predecir, podemos preguntarnos qué buscamos responder con los datos y es todo, hay que hacer clic en Siguiente.
Al seleccionar el campo objetivo, automáticamente escoge el tipo de método de aprendizaje automático y nos da ejemplos dónde puede aplicar.
En este caso lo que queremos predecir es una clasificación, el modelo hará la predicción de acuerdo a las categorías disponibles que en este caso son dos, binarias o pueden ser más como alto, bajo y medio.
Hacemos clic en siguiente para ir al paso subsecuente.
Puede ser Paso a paso o Automático.
Para esta guía usaremos Paso a paso.
En este paso se asignará el correcto para los datos del conjunto que utilizaremos para modelar.
De acuerdo con contenido, el Modelado Asistido nos recomendará que descartemos algunos o les cambiemos el tipo como en el caso de los campos que son ID’s, ya que no aportan información para la predicción.
Analiza el contenido de la columna y recomienda una acción a tomar.
Nos explica por qué la descarta.
Seleccionamos siguiente para pasar al paso 4.
Los campos con valores nulos o vacíos generan problemas para crear modelos analíticos, como parte del proceso el Modelado Asistido nos aconseja estrategias de imputación para limitar el impacto de esos datos sobre los resultados del modelo.
Imputar quiere decir asignar valores a un campo vacío o nulo, para hacerlo se puede descartar por completo la variable si no aporta información o tiene muy pocos valores o cambiarlo por la mediana, moda o media del resto de los valores. De está forma podemos aprovechar esos campos que tienen información incompleta.
Hacemos clic en siguiente para continuar con el proceso.
De las variables que tiene el modelo, podemos escoger las que tienen una mayor asociación con lo que buscamos predecir para que el resultado sea más preciso.
En este caso nos indica que una variable está muy débilmente asociada con el objetivo de acuerdo con el análisis Gini y GKT.
Y la explicación de las técnicas usadas para evaluar los detalles del predictor.
Los predictores son las variables que nos ayudarán a predecir el objetivo.
Hacemos clic en siguiente para seguir adelante.
El último paso nos permite seleccionar los algoritmos que queremos utilizar para la predicción, cumpliendo así el teorema de ciencia de datos que dice “no hay almuerzo gratis”, ningún algoritmo es perfecto para todos los casos, hay que probar diferentes para obtener los mejores resultados que se adapten a los datos y situación específica.
Para las variables categóricas tenemos disponibles 4 algoritmos
Si se trata de una variable continua (numérica) tenemos 3 algoritmos a tu disposición
Cada uno cuenta con su definición, ventajas, desventajas y casos prácticos donde se aplica.
Hacemos clic en Ejecutar los algoritmos seleccionados para entrenarlos.
Una vez que concluye el entrenamiento de los modelos seleccionados, el Modelado Asistido presenta los resultados globales e individuales junto con una explicación de las métricas y una recomendación del mejor modelo de acuerdo con su exactitud y tiempo de procesamiento.
En este caso la plataforma aconseja que el mejor modelo es el XGBoost con una precisión de 80% y un tiempo de procesamiento de 13 segundos.
Podemos también evaluar las matrices de confusión que nos explican la capacidad del modelo para predecir cada opción, eso es importante dependiendo del caso de uso que estemos analizando.
La importancia de las variables es otra característica que se presenta.
Está nos habla de cuáles variables, de acuerdo con cada modelo son más importantes para predecir la variable objetivo, importante para enfocarnos en las variables más relevantes y generar acciones enfocadas en las que pueden tener más impacto.
¿Eres desarrollador y prefieres escribir tu código a mano porque te permite tener más control?, no hay problema, el Modelado Asistido está aquí para ayudarte, puedes crear prototipos o borradores de los modelos que requieres y exportarlos a Python para crear la base de tu modelo sin esfuerzo, con sólo unos cuantos clics.
Selecciona Exportar modelo a Python.
Y ahora podrás ver el modelo en código Python dentro de Alteryx Designer para comenzar a usarlo de inmediato.
Para terminar el proceso selecciona el modelo ganador, haciendo clic en la palomita y luego has clic en Agregar modelos y continuar al flujo de trabajo.
Eso crea un flujo de trabajo completo que puedes utilizar para calificar tus datos, ya sea por lotes (batch) con Designer, Alteryx Server o integrado dentro de otro sistema mediante la API Rest del Altyeryx Server e incluso implementarlo para calificar en tiempo real mediante Alteryx Promote.
Así se muestra todo el proceso del modelo en código Python dentro del Jupyter Notebook incluido dentro del bloque analítico de Python en Alteryx Designer.
Para hacer las predicciones después del entrenamiento del modelo, podemos conectar el nuevo conjunto de datos con el bloque analítico de predicción para asignarle una probabilidad de abandono a cada registro.
Incluso una vez terminado el modelo, podemos modificar los parámetros para afinarlo aún más, lo que le aporta una gran flexibilidad al proceso.
Y sin olvidar que te sigue explicando cada parámetro que seleccionas.
Ya creaste tu primer modelo analítico, no eres experto en esto, ¿cómo puedes justificar los resultados o explicarlos sobre todo a los expertos en ciencia de datos?
gif retrieved from giphy.com
No te preocupes, Modelado Asistido está aquí para ayudarte.
Al mismo tiempo que el asistente fue mostrándonos lo que iba a hacer en cada etapa, al terminar el proceso creó el flujo analítico o analytical pipeline con todos los pasos y las decisiones que tomamos para poder mostrarlo y justificar el trabajo tanto como con los expertos como con los posibles auditores y revisores de calidad que requieran verificar cómo se están tomando las decisiones.
El flujo incluye todos los pasos y podemos revisarlos e incluso modificarlos si es necesario.
Si recuerdan, antes nos indicó que descartáramos la variable servicioTelefono y aquí esta la misma decisión en el flujo.
Adicionalmente, si quieres discutir los resultados con más personas o en otro contexto puedes exportar los reportes de resultados en HTML y llevarlos contigo a esa reunión importante.
Esta es la verdadera inteligencia aumentada, la capacidad de aprovechar la propia experiencia y utilizar el potencial del aprendizaje automático.
Lo que en verdad te da el poder…
Tomado de Giphy
Y la emoción de resolver con Alteryx.
Debe ser un usuario registrado para añadir un comentario aquí. Si ya está registrado, inicie sesión. Si todavía no está registrado, hágalo e inicie sesión.