Free Trial

Blog

Visiones e ideas de las mentes más brillantes en el campo del análisis.
Garabujo7
Alteryx
Alteryx

Garabujo7_0-1655935227788.png

 

 

En este nuevo artículo continuaré con el tema del análisis exploratorio de los datos que comencé en el anterior.

 

Limpieza de Datos

 

Si al hacer la revisión de los datos, detectamos que tenemos valores nulos, espacios extras al principio o al final y otros temas que suceden frecuentemente con los datos, fácilmente podemos resolverlos usando la herramienta de limpieza, que se encuentra en la categoría de Preparación.

 

 

Garabujo7_1-1655935242190.png

 

 

Con esta, al seleccionar las columnas que necesitan limpieza podemos:

 

  • Remover columnas o filas completas que tengan sólo valores nulos

 

  • Reemplazar valores nulos con vacíos en el caso de campos de texto, y cambiar los nulos por ceros en el caso de numéricos

 

  • Remover espacios en blanco al principio y al final, tabuladores, saltos de línea y espacios duplicados

 

  • Quitar todos los espacios en blanco del campo

 

  • Retirar números, letras o signos de puntuación

 

  • Cambia el texto a mayúsculas, minúsculas o sólo la primera letra de cada palabra en mayúscula

 

 

Garabujo7_2-1655935242193.png

 

 

Está herramienta facilita las tareas de limpieza más comunes que se presentan en casi cualquier conjunto de datos.

 

Ventana de resultados

 

También es posible hacer limpieza directamente en los datos.

 

 

Garabujo7_3-1655935242196.png

 

 

Al estar viendo los datos podemos hacer clic en los 3 puntos que aparecen al lado del campo. Se muestra un menú con opciones de acuerdo con el tipo de dato para limpiar, filtrar u ordenar directamente en los resultados.

 

Cuando seleccionemos el tratamiento deseado, hay que dar clic en Aplicar para ver el resultado, eso nos presentará los datos directamente, si además queremos agregar la herramienta a nuestro flujo, podemos hacerlo al hacer clic en la palomita que aparece arriba, si no queremos conservar el proceso que hicimos, podemos seleccionar el ícono rojo para eliminarlo.

 

Garabujo7_4-1655935242196.png

 

 

Salud de los datos

 

Para conocer más de la salud de los datos con un reporte de un clic, podemos utilizar la herramienta Salud de los Datos que se encuentra en la categoría de Aprendizaje Automático.

 

Garabujo7_5-1655935242198.png

 

 

No requiere configuración y nos permite, sobre todo, ver los datos atípicos, que se encuentran fuera de los rangos de la mayoría.

 

 

Garabujo7_6-1655935242201.png

 

 

Estos valores pueden ser problemáticos para nuestros análisis, por ello es importante identificarlos y darles un tratamiento adecuado.

 

Por ejemplo, en nuestro conjunto de datos tenemos jugadores de 45 años, pero podría haber algunas edades de 55 o 60, sólo unas cuantas pero que salen del rango. Esto puede deberse a errores en la captura de los datos, una anormalidad que vale la pena analizar individualmente o desviaciones que es mejor reducir para que no influyan en el resto de nuestros análisis.

 

 

Garabujo7_7-1655935242203.png

 

 

El reporte de salud nos dice que tenemos 17 columnas que no tienen problemas de valores atípicos, 1 con calificación deficiente y 25 valoradas como muy deficientes.

 

Para resolverlo podemos usar la macro gratuita CreW Modify Outliers que pueden encontrar en la Galería pública dentro de la comunidad.

 

 

Garabujo7_8-1655935242205.png

 

 

También la encontrarán adjunta al final de este artículo.

 

Esta macro tiene varias opciones muy útiles y sencillas.

 

Primero haremos la selección de los campos.

 

Como en la imagen, es bueno dejar fuera los campos de ID ya que estos no son útiles para nuestro análisis.

 

 

Garabujo7_9-1655935242207.png

 

 

A continuación, podemos remover los atípicos directamente, es la opción más sencilla y recomendada dependiendo del tipo de análisis que vayamos a realizar.

 

 

Garabujo7_10-1655935242207.png

 

 

 

La última opción que podemos tomar es mantener los atípicos pero ajustados. El ajuste se hace con:

 

 

  • Rango intecuartil (IQR), si el valor está 1.5 cuartiles alejado de la media, actualizará su valor

 

  • Desviación estándar, 1 o 2 desviaciones para modificar los límites

 

  • Media, para substituir los valores atípicos con la media

 

 

Garabujo7_11-1655935242209.png

 

 

Está es una forma sencilla y rápida de reducir el impacto de los atípicos en los análisis posteriores.

 

Resumen de campos

 

Otra excelente opción para explorar los datos es usar la herramienta resumen de campos, que se encuentra en la categoría Investigación de Datos.

 

 

Garabujo7_12-1655935242211.png

 

 

La configuración es muy sencilla, sólo seleccionamos los campos que queremos explorar y listo. En caso de que sea un conjunto de datos muy grande, para acelerar el proceso podemos seleccionar una muestra de los datos también.

 

 

Garabujo7_13-1655935242213.png

 

 

Nos muestra dos salidas, una con un reporte estático y otra con uno dinámico.

 

El reporte estático presenta una gráfica de dispersión para los valores numéricos y estadísticas de tendencia central.

 

 

Garabujo7_14-1655935242214.png

 

 

Esta es útil para identificar la distribución de los campos y la presencia de valores atípicos en un diagrama de dispersión.

 

La información que aparece depende del tipo da dato del campo seleccionado.

 

En la salida de reporte interactivo podemos ver histogramas de todas las columnas, este es interactivo.

 

Garabujo7_15-1655935242218.png

 

 

Es posible filtrar las columnas que queremos ver y hacer clic en cualquier gráfico para ir al detalle.

 

 

Garabujo7_16-1655935242219.png

 

 

Y abajo las estadísticas y un resumen del campo.

 

 

Garabujo7_17-1655935242221.png

 

 

Esto nos permitirá conocer con mayor detalle nuestros datos, descubrir relaciones entre las columnas que no conocíamos y otros hallazgos relevantes.

 

Análisis bivariado

 

Para continuar con las visualizaciones, podemos usar dos variables para ver su influencia y relación entre ellas.

 

Si tenemos sólo valores numéricos, usamos un diagrama de Dispersión que se encuentra en la categoría Investigación de Datos.

 

 

Garabujo7_18-1655935242222.png

 

 

La configuración sólo requiere seleccionar 2 campos numéricos para generar la visualización.

 

 

Garabujo7_19-1655935242224.png

 

 

 

El reporte nos presenta el contraste entre ambas variables, en este caso la Edad en las X y el salario en las Y. Así vemos la relación entre ambas y podemos concluir que los jugadores que ganan más se encuentran entre los 30-35 años, el siguiente nivel salarial más elevado está entre los 25-30 años.

 

Garabujo7_20-1655935242229.png

 

 

A la derecha podemos observar también que tenemos algunos jugadores mayores que el resto y en el salario nos muestra que algunos jugadores ganan mucho más que la mayoría.

 

 

Garabujo7_21-1655935242235.png

 

 

 

 

Está gráfica es muy útil para entender la influencia de dos variables, además de su distribución y nos permitirá determinar si la mantenemos para nuestro análisis.

 

 

 

Garabujo7_22-1655935242235.png

 

 

 

El siguiente análisis bivariado lo haremos con una gráfica de barras, usando la herramienta gráfico interactivo de la categoría Generador de Informes.

 

Para los equipos más viejos ordenamos los clubs de forma descendente por edad, seleccionamos los primeros 10 clubs y los graficamos.

 

Para los equipos más jóvenes ordenamos los clubs de forma descendente por edad, seleccionamos los primeros 10 clubs y los graficamos.

 

Para seleccionar una muestra de datos usamos la herramienta Muestra, que está en la categoría preparación.

 

 

 

Garabujo7_23-1655935242236.png

 

 

En la configuración, agregamos el campo club y la edad.

 

 

Garabujo7_24-1655935242239.png

 

 

Aquí podremos ver qué equipos tienen a los jugadores con mayor edad y lo que tienen a los más jóvenes.

 

 

Garabujo7_25-1655935242247.png

 

 

Esto nos permitirá ampliar el conocimiento de los datos, cómo se relacionan e interactúan entre sí.

 

Conclusión

 

Cómo vimos, es muy importante que, antes de hacer cualquier análisis, comencemos a explorar los datos que tenemos.

 

Saber el estado que tienen, si requieren limpieza, estructurarlos o transformarlos.

 

Identificar posibles errores de captura, en los procesos, entender cómo están y con base en eso, tomar decisiones y obtener resultados de los datos rápidamente.

 

De esta manera serán más sencillos los siguientes pasos de cualquier análisis que llevemos a cabo.

 

 

Etiquetas