Free Trial

Blog

Visiones e ideas de las mentes más brillantes en el campo del análisis.
Garabujo7
Alteryx
Alteryx

Garabujo7_2-1655934722276.png

 

 

 

Cuando empezamos cualquier proceso de análisis de datos, una parte fundamental, y que generalmente dejamos de lado es el Análisis Exploratorio de los Datos,

 

¿y por qué es muy importante?

 

Los datos no siempre (casi nunca) son perfectos, se requiere verificar su calidad. Revisar que no haya valores nulos, vacíos, espacios en blanco extras, saltos de línea, en fin, varios detalles que son el día a día de los datos.

 

 

Distribución de los datos

 

También podemos revisar la distribución de los datos. Generalmente se asume que tienen lo que llamamos una distribución normal o cercana a la normal.

 

Para este artículo utilizaré un conjunto de datos de los jugadores de la FIFA en 2019 que puedes revisar aquí.

 

 

 

Garabujo7_4-1655934764080.png

 

 

En la imagen de arriba podemos observar cómo están agrupados los datos, nos permite ver cómo se distribuyen los datos en todo el conjunto que tenemos.

 

Tienen más o menos una distribución normal, la mayoría están cerca del centro y las orillas tienen menos datos. Sin embargo, esto no siempre sucede así.

 

Muchos datos se encuentran sesgados hacia alguno de los extremos, lo que indica que la mayoría de los registros presentan esos valores:

 

 

Garabujo7_5-1655934764081.png

 

 

Aquí vemos como la resistencia de los jugadores tiene un sesgo hacia la izquierda. La mayoría de los jugadores, al ser profesionales tienen gran resistencia, aunque viendo la distribución nos damos cuenta que hay jugadores con menor resistencia que la mayoría. 

 

De ahí podemos asumir que puede tener relación con la posición del jugador en el campo, tal vez los porteros no requieren tanta resistencia, pero si, reflejos. Son el tipo de conclusiones que podemos ir derivando de visualizar los datos y que nos pueden ser útiles más adelante en nuestros análisis.

 

 

 

Garabujo7_6-1655934764081.png

 

 

 

El peso, por el contrario, tiene un sesgo hacia la derecha. La mayoría de los jugadores tienen un peso similar, aunque, puede haber jugadores más pesados. Tal vez debido a su estatura.

 

Con la distribución también es posible conocer los rangos de los datos y cómo se agrupan para poder tomar decisiones sobre cómo tratarlos para su análisis.

 

La herramienta Examinar

 

El perfil de los datos es uno de los primeros análisis visuales que hacemos para conocer su estado general.

 

En Alteryx Designer usamos una herramienta muy versátil para eso: Examinar.

 

 

Garabujo7_7-1655934764081.png

 

 

Con ella podemos hacer el perfilado de los datos, ver mapas, reportes interactivos y estáticos de muchas otras herramientas.

 

En este caso usaremos la parte del perfilado de los datos.

 

Si vemos los datos en la ventana de resultados, la mitad inferior de la pantalla. Podemos ver todas las columnas que tenemos.

 

Si colocamos el cursor del ratón en el encabezado de alguna columna, podremos ver su calidad general.

 

 

Garabujo7_8-1655934764084.png

 

 

En este caso la columna LS tiene un porcentaje de 11.45 registros vacíos. Eso podría ser un problema de calidad, un error o algo normal en los datos. Con esta vista, podemos asegurarnos que las columnas tienen la calidad esperada.

 

En la ventana de configuración, la mitad derecha, podemos ver también las características de la columna, su tipo de dato y los primeros 5 valores que más se repiten en cada una.

 

 

Garabujo7_9-1655934764088.png

 

 

También podemos notar que es posible detectar el número de campos vacíos a pesar de que sea una cantidad mínima como en la imagen que sólo representan el 0.26% del total.

 

Aquí mismo podemos cambiar la visualización, de ver los valores a gráficas de frecuencia si hacemos clic en la esquina superior derecha.

 

 

Garabujo7_10-1655934764091.png

 

 

Y si seleccionamos el filtro que aparece a la derecha, podemos filtrar los campos por nombre o por tipo de dato.

 

 

Garabujo7_11-1655934764092.png

 

 

Perfilado de datos

 

Si hacemos clic en la columna edad, nos mostrará el perfil del campo.

 

 

Garabujo7_12-1655934764094.png

 

 

La primera parte nos presenta un resumen del campo.

 

El tipo de dato, número de registros y su tamaño.

 

Abajo, aparece la calidad general del campo organizada por colores, junto con el número de registros y el porcentaje que representan del total.

 

  • Verde, aceptable. No tiene problemas de calidad

 

  • Único. Son los valores que no se repiten en el conjunto de datos

 

  • Amarillo, registros con valores nulos

 

  • Rojo, no aceptables. Presenta espacios adicionales al principio y al final del campo

 

  • Gris, vacíos. Campos sin valores

 

La siguiente sección cuenta con estadísticas de los valores:

 

 

 

Garabujo7_13-1655934764096.png

 

 

Aquí podemos observar el valor máximo, el mínimo. El jugador más longevo, por ejemplo, tiene 45 años y el más joven 16.

Cuartiles

 

Los cuartiles, que dividen el conjunto de datos en 4. Tienen el cuartil inferior y superior que es donde se encuentra la mayoría de los valores. En este los jugadores se encuentran entre los 21 y 28 años, aunque algunos cuantos pueden ir de los 16 a los 45 pero no es lo normal.

 

A continuación, les muestro una gráfica de cajas, es una visualización muy útil para resumir los datos.

 

Ahí nos muestra dónde se encuentra la mayoría de los datos, entre el segundo y tercer cuartil, el límite inferior y superior de los datos y los registros que se encuentran exactamente a la mitad.

 

 

 

Garabujo7_14-1655934764099.png

 

 

 

Las siguientes métricas son:

 

  • El promedio, que es donde el mayor número de valores se encuentra, aunque para describir un conjunto de datos puede ser engañoso porque se ve afectado por los registros que están muy alejados del centro. Para eso usamos la desviación estándar, para conocer qué tanto varían los valores de la media. En este caso el promedio es 25

 

  • La mediana es el valor que divide los datos exactamente a la mitad y la varianza indica qué tanto se dispersan los datos del centro

 

  • La última sección son los primeros 5 valores del campo. Si hacemos clic en más, podemos ver el resto de los valores

 

 

Garabujo7_15-1655934764100.png

 

 

 

Siguiente parte

 

Hasta aquí cerrare este artículo, en la parte 2 revisaremos cómo hacer limpieza de los datos, revisar su salud general, identificar y tratar valores atípicos, resumen de campos y análisis bivariados para cerrar nuestro proceso de investigación y entendimiento de los datos.

Etiquetas