Tomado de giphy.com
La ingeniería de características es la creación de nuevas variables a partir de variables actuales. Es parte de la preparación de datos, pero también se usa comúnmente en el aprendizaje automático.
Se crea una nueva variable basada en el conocimiento del negocio, la intuición, y la experiencia técnica, normalmente es un proceso complejo. En la mayoría de los casos, es un proceso manual, por lo que lleva mucho tiempo y se necesitan conocimientos de SQL y programación.
Usualmente, se extraen datos dispersos de varios sistemas y tablas, y se utilizan para los procedimientos de aprendizaje automático. Por ello es necesario integrarlos en una sola tabla.
Es por eso que en la versión 2021.1 de Alteryx Designer se incorporaron cuatro nuevos bloques analíticos en la pestaña de aprendizaje automático, para ahorrar tiempo y simplificar el proceso.
La recomendación es utilizar estos nuevos bloques para simplificar el proceso, agregar valor al negocio y crear modelos de aprendizaje automático de alta calidad.
Comenzaré con el primer bloque analítico en este artículo y publicaré los 3 restantes en otros artículos.
Para aumentar la efectividad de un modelo analítico, es posible enriquecer los datos que se utilizaran con más información, para eso utilizaremos este bloque analítico que además se configura de forma muy sencilla.
Se muestra el nombre de cada característica, el tipo de datos y se puede seleccionar el tipo de dato enriquecido que se le puede agregar y el tipo de salida que creara.
La recomendación es usar la detección automática para hacerlo de la forma más sencilla. De esta forma el proceso de agregar el tipo de dato enriquecido se realizará automáticamente.
A continuación, se muestra la lista de todos los tipos de datos enriquecidos existentes. Con estos tipos de datos enriquecidos el modelo tendrá más información a la hora entrenar y tendrá la capacidad de dar mejores resultados.
Por ejemplo, si el tipo de dato es fecha, con el tipo enriquecido podemos establecer que esa fecha es el nacimiento de la persona o un delta y con esta información se explica mejor el dato.
En el siguiente artículo hablaré del siguiente bloque analítico: Generación de características.
En el último artículo incluiré el flujo de ejemplo que usé.
Debe ser un usuario registrado para añadir un comentario aquí. Si ya está registrado, inicie sesión. Si todavía no está registrado, hágalo e inicie sesión.