*Esta publicación fue escrita originalmente por @sprakasam en la Comunidad en inglés
Revisamos tus comentarios y dejaste una cosa clara: un ciudadano científico de datos no cumple una sola función con un conjunto de habilidades definidas, sino que cumple una gama de funciones con distintas necesidades analíticas y niveles de experiencia. Para ayudar a satisfacer las necesidades de la función que cumples, ampliamos el grupo de herramientas de aprendizaje automático de Alteryx Intelligence Suite con cuatro herramientas nuevas: Salud de datos, AutoML, Tipos de características y Generación de características. Desarrollamos tres de estas herramientas utilizando nuestras bibliotecas de ciencias de datos de Innovation Labs: AutoML, Tipos de características y Generación de características. Ahora puedes liberar la potencia de estos paquetes Python de código abierto en un flujo de trabajo de Alteryx. La cuarta es una herramienta nueva que te ayuda a identificar rápidamente el nivel de salud de tus datos antes de entrenar tu modelo.
Ya sea que estés comenzando tu recorrido hacia la ciencia de datos o quieras optimizar tu pipeline de aprendizaje automático, la herramienta Salud de datos es para ti. La herramienta Salud de datos te permite verificar la salud de tus datos para el modelado predictivo.
Esta herramienta te brinda insights acerca de tu conjunto de datos enfocándose en seis métricas: valores ausentes, valores únicos, dispersión, campos unarios (como números de identificación) y valores atípicos. De esa manera, puedes solucionar los problemas con tus datos y desarrollar el mejor modelo en el primer intento. La configuración es simple; solo tienes que elegir si deseas que las puntuaciones se muestren normalizadas (0-1) o en porcentajes (0-100 %) y de ahí la herramienta proporciona puntuaciones según las seis métricas. ¿Quieres más información? Revisa la documentación de ayuda aquí.
Si ya te sientes cómodo con el modelado asistido y quieres enriquecer tus tipos de datos o generar nuevas características, usa las herramientas Tipos de características y Generación de características juntas para llevar tus modelos al siguiente nivel.
La herramienta Tipos de características detecta tipos de datos mejorados. Los tipos de datos mejorados son solo versiones sofisticadas de tipos de datos comunes. Por ejemplo, un número de cinco dígitos se caracterizaría como numérico con tipos de datos básicos. Pero con tipos de datos mejorados, podría ser detectado como un código postal de EE. UU. De forma predeterminada, la herramienta Tipos de características detecta automáticamente los tipos mejorados de los campos de datos cuando ejecutas el flujo de trabajo. Puedes anular el tipo detectado automáticamente especificando el tipo de dato en la columna Cambiar tipo.
La herramienta Tipos de características es una entrada necesaria para la herramienta Generación de características a fin de lograr una ingeniería de características eficaz y una entrada opcional para la herramienta Salud de datos a fin de mejorar la salida del informe.
La herramienta Generación de características crea automáticamente nuevas características a partir de los datos existentes. Esto ayuda a formatear los datos para que el modelo de aprendizaje automático pueda realizar un análisis, lo que aumenta la posibilidad de que el modelo de aprendizaje automático encuentre patrones significativos. Ayuda a descubrir variables que puedes no haber considerado (o priorizado). Por ejemplo, puedes transformar una columna de “Fecha de nacimiento” en nuevas características, como “Edad” o “Mes de cumpleaños”.
Después de asegurarte de que tus datos estén en buena salud y pases al modelado, es posible que quieras programar tu flujo de trabajo de entrenamiento de modelos en Alteryx Analytics Hub o Server. Todas las herramientas de aprendizaje automático de Intelligence Suite funcionan excelentemente en los flujos de trabajo de Alteryx Analytics Hub y Server, y programar tu flujo de trabajo de entrenamiento para volver a entrenar a tu modelo periódicamente es una excelente manera de mantener el modelo funcionando al máximo.
Sin embargo, ¿qué sucede si sabes que tus datos de entrenamiento cambiaran mucho a lo largo del tiempo? En ese caso, es posible que prefieras la flexibilidad de actualizar automáticamente el algoritmo de tus modelos a la opción más adecuada para los datos de entrenamiento más recientes (por ejemplo, pasar de un modelo de bosque aleatorio a un modelo XGBoost) en vez de comprometerte al algoritmo que seleccionaste cuando creaste por primera vez el flujo de trabajo de entrenamiento (por ejemplo, el ajuste constante de un modelo de bosque aleatorio).
Si es así, creamos para ti una herramienta tan fácil de usar como el Modelado asistido y que es perfecta para esa situación. La herramienta AutoML te permite entrenar un modelo sin la interfaz emergente de la herramienta Modelado asistido y selecciona de forma inteligente el mejor algoritmo para ti. Aunque la herramienta AutoML no ofrece la experiencia guiada del Modelado asistido, sí proporciona la misma potencia de la biblioteca de modelado automático EvalML en una sola herramienta autónoma de Alteryx.
Para utilizar la herramienta AutoML, simplemente selecciona tu variable objetivo. A partir de ahí, el método de aprendizaje automático se configura automáticamente según la estimación del modelo. Dicho esto, siempre puedes anularlo manualmente seleccionando el método de aprendizaje automático.
Esta herramienta también puede ser útil si eres un usuario muy avanzado y quieres crear rápidamente modelos de aprendizaje automático eficaces directamente en un flujo de trabajo o crear aplicaciones analíticas que seleccionen un nuevo modelo entrenado en cada ejecución.
El equipo de innovación en la ciencia de datos ha trabajado arduamente para integrar la propiedad intelectual de FeatureLab en Alteryx Intelligence Suite. Descarga el kit de inicio de Intelligence Suite para explorar plantillas prediseñadas con datos de muestra, flujos de trabajo y casos prácticos. Disponible en la versión de Designer 2021.1 con una licencia de Alteryx Intelligence Suite (comunícate con tu representante de cuenta), estas nuevas herramientas tienen flujos de trabajo de muestra disponibles para ayudarte a comenzar (Ayuda > Flujos de trabajo de muestras > Aprender un modelo a la vez). También puedes consultar esta publicación para ver un ejemplo detallado de cómo usar las nuevas herramientas.
Debe ser un usuario registrado para añadir un comentario aquí. Si ya está registrado, inicie sesión. Si todavía no está registrado, hágalo e inicie sesión.