10-26-2020 12:22 PM - editado 07-01-2022 12:40 PM
Este artículo es parte de la serie Dominio de Herramientas, una compilación de contribuciones a la Base de Conocimiento para introducir diferentes ejemplos prácticos de las herramientas de Alteryx Designer. Vamos a profundizar en los usos de la herramienta Entrada de texto en nuestro camino hacia el dominio de Alteryx Designer.
Nota: Cada Exploración en un flujo de trabajo requerirá espacio temporal y memoria física para visualizar sus datos y estos requisitos aumentarán con el tamaño de su conjunto de datos. Si esto se vuelve demasiado exigente para su proceso, deshabilite las herramientas Examinar sin tener que eliminarlas de su flujo de trabajo.
En v11.0+, la Herramienta de Examinar ha agregado una funcionalidad de creación de perfiles de datos que complementa los usos de la herramienta. Véala en acción a continuación
Mucho más que una simple ventana a sus datos, la herramienta de Examinar tiene un catálogo de funciones para ver, investigar y copiar/guardar datos de la mejor manera en cualquier punto de control.
Cuando iniciamos cualquier proceso de análisis de datos, una parte fundamental, y que solemos ignorar, es el Análisis Exploratorio de Datos, y ¿por qué es importante?
Los datos no siempre (casi nunca) son perfectos, es necesario verificar su calidad. Revisar que no haya valores nulos, espacios vacíos, espacios en blanco extra, saltos de línea, en fin, varios detalles que son el día a día de los datos.
Esa observación de sus datos en cualquier parte de su preparación y mezcla brinda comentarios valiosos que a menudo aceleran el desarrollo del flujo de trabajo y facilitan el aprendizaje de herramientas al visualizar fácilmente sus transformaciones. ¡Prepárese y navegue por todas sus aplicaciones a continuación!
Utilice una de las opciones de Vista dividida en la herramienta Examinar. Esto le permitirá seleccionar la vista de tabla en un lado y la vista de mapa en el otro, lo que le permitirá identificar qué registros están asociados con objetos espaciales particulares en el mapa:
Utilice la herramienta de exploración para obtener una perspectiva de sus datos. Junto a los botones de selección de vista, verá que la Herramienta de exploración le proporciona: # de registros, # de campos y tamaño de los datos en bytes:
Abra el panel Examinr en una ventana nueva. Esto es excelente para usar con comparaciones de datos, ya sea de naturaleza tabular o visual:
Use el Visor de Celdas para ver qué el contenido completo de los campos:
Seleccione y anule la selección de los campos que desea mostrar, directamente en la herramienta Examinar. Esto es útil cuando se trabaja con datos que contienen una gran cantidad de campos, pero solo le gustaría ver algunos en su exploración:
Deténgase a ver sus campos, tipos y tamaños; simplemente cambie de la vista "Datos" a "Metadatos":
En el menú de configuración de la herramienta Examinar, puede ver una pestaña de "Informe" o "Mapa" si está trabajando con informes u objetos espaciales, respectivamente. Échales un vistazo antes de generar un formato de informe formal:
La creación de perfiles de datos en la herramienta Examinar se creó para ayudar al usuario a comprender mejor la calidad de sus datos en cualquier punto del flujo de trabajo.
Esta opción ayudará a los usuarios a comprender la calidad de sus datos, asistirá en la solución de problemas y solucionará los problemas que puedan surgir al intentar analizar, unir o generar sus datos.
También podemos revisar la distribución de los datos. Por lo general, se supone que tienen lo que llamamos una distribución normal o casi normal.
Para este artículo, usaré un conjunto de datos de jugadores de FIFA en 2019 que puede revisar aquí.
En la imagen de arriba podemos ver como se agrupan los datos, nos permite observar como se distribuyen los datos en todo el conjunto que tenemos.
Tienen una distribución más o menos normal, la mayoría están cerca del centro y las orillas tienen menos datos. Sin embargo, este no es siempre el caso.
Muchos datos están sesgados hacia uno de los extremos, lo que indica que la mayoría de los registros presentan estos valores:
Aquí vemos como la resistencia de los jugadores tiene un sesgo a la izquierda. La mayoría de los jugadores, al ser profesionales, tienen un gran aguante, aunque mirando la distribución nos damos cuenta de que hay jugadores con menos aguante que la mayoría.
De ahí podemos suponer que puede estar relacionado con la posición del jugador en el campo, quizás los porteros no requieran tanta resistencia, pero sí reflejos. Son el tipo de conclusiones que podemos derivar de la visualización de los datos y que nos pueden ser útiles más adelante en nuestros análisis.
El peso, por el contrario, está sesgado hacia la derecha. La mayoría de los jugadores tienen un peso similar, aunque puede haber jugadores más pesados. Quizás por su altura.
Con la distribución también es posible conocer los rangos de los datos y cómo se agrupan para tomar decisiones sobre cómo tratarlos para el análisis.
Agregue una herramienta de exploración después de cualquier herramienta que desee para verificar la calidad de sus datos. Recomendamos enfáticamente adquirir el hábito de agregar una Herramienta de exploración después de sus Entradas. Esto le permitirá comprender de inmediato cuál es la condición de sus datos.
A continuación, puede ejecutar el flujo de trabajo y seleccionar la herramienta Examinar. La ventana de configuración mostrará gráficos relacionados con cada una de sus columnas en sus datos, así como información específica sobre el campo y el tipo de datos. Al seleccionar una columna específica en la ventana de resultados, la creación de perfiles de datos en la ventana de configuración cambiará y le mostrará la calidad de los datos dentro de esa columna. Recibirá diferentes gráficos e información según el tipo de datos en el campo.
Si vemos los datos en la ventana de resultados, la mitad inferior de la pantalla. Podemos ver todas las columnas que tenemos. Si colocamos el cursor sobre el encabezado de una columna, podemos ver su calidad general.
En este caso la columna LS tiene un porcentaje de 11.45 registros vacíos. Eso podría ser un problema de calidad, un error o algo normal en los datos. Con esta vista, podemos asegurarnos de que las columnas tengan la calidad esperada.
También es posible limpiar, filtrar y clasificar directamente los datos en la ventana de resultados.
Al visualizar los datos, podemos pulsar sobre los 3 puntos que aparecen junto al campo. Se despliega un menú con opciones según el tipo de datos a limpiar, filtrar u ordenar directamente en los resultados.
Cuando seleccionemos el tratamiento deseado, debemos hacer clic en Aplicar para ver el resultado, que nos presentará los datos directamente, si también queremos agregar la herramienta a nuestro flujo, podemos hacerlo haciendo clic en la palomita que aparece arriba, si no queremos mantener el proceso que agregamos, podemos seleccionar el icono rojo para eliminarlo.
En la ventana de configuración, la mitad derecha, podemos ver las características de la columna, su tipo de datos y los 5 primeros valores que más se repiten en cada una.
También podemos señalar que es posible detectar el número de valores nulos, aunque sea una cantidad mínima, como en la imagen, que solo representa el 1.32% del total.
Aquí mismo podemos cambiar la visualización, desde ver los valores hasta gráficas de frecuencia si hacemos clic en la esquina superior derecha.
Y si seleccionamos el filtro que aparece a la derecha, podemos filtrar los campos por nombre o por tipo de datos.
Si hacemos clic en la columna de edad, nos mostrará el perfil del campo.
La primera parte nos presenta un resumen del campo.
El tipo de datos, número de registros y su tamaño.
A continuación, se muestra la calidad general de los campos organizados por colores, junto con el número de registros y el porcentaje que representan sobre el total.
La siguiente sección tiene estadísticas de los valores:
Aquí podemos observar el valor máximo y el mínimo. El jugador de mayor edad, por ejemplo, tiene 45 años y el menor 16.
Cuartiles, que dividen el conjunto de datos en 4. Tienen el cuartil inferior y el superior que es donde se encuentran la mayoría de los valores. En éste, la mayoría de los jugadores tienen entre 21 y 28 años, aunque algunos pueden tener 16 o 45 pero no es lo habitual.
A continuación, les muestro un diagrama de caja, es una visualización muy útil para resumir los datos.
Allí nos muestra dónde se encuentra la mayoría de los datos, entre el segundo y el tercer cuartil, los límites inferior y superior de los datos y los registros que están exactamente en el medio.
Las métricas que presenta son:
Consulte nuestro maravilloso documento de ayuda en línea para la herramienta de Examinar que contiene toda la información sobre los gráficos y los metadatos.
La herramienta Examinar solo generará el perfilado de datos cuando se haga clic en la herramienta Examinar. Dependiendo de la cantidad de datos que fluyan hacia la herramienta de exploración, puede tardar un poco en generar los informes de perfilado de datos. Si no selecciona la herramienta Examinar cuando está trabajando en el flujo de trabajo, no usará memoria hasta que coloque la herramienta Examinar para generar los informes.
Si desea capturar estos datos y utilizarlos en un flujo de trabajo o extraer esa información, puede utilizar la herramienta de perfil de datos básicos. Esta herramienta tomará la información de la generación de perfiles de datos en la herramienta Examinar. En este momento, no tenemos la opción de exportar los gráficos.
Puede desactivar la función de creación de perfiles de datos yendo a su configuración de usuario y desmarcando "Recopilar y mostrar información de perfil de datos". Sin embargo, como se recomendó anteriormente en el artículo, usar la generación de perfiles de datos después de su herramienta de Datos de Entrada ahora se considera una mejor práctica y, como mínimo, la generación de perfiles de datos debe usarse en este punto. Siempre puede desactivar la opción después de haber revisado sus datos.
Copiar: en una herramienta Examinar, en la pestaña del mapa, haga clic con el botón derecho en cualquier punto del mapa. Se mostrarán la latitud y la longitud de esa ubicación. Si hace clic en [Copiar punto (x.y)] habrá copiado ese valor de Latitud Longitud en su portapapeles.
Pegar: haga clic con el botón derecho en el lienzo del módulo, seleccione "Pegar" y se agregará una herramienta de entrada de texto a su módulo, con los valores de su punto copiado ya agregados en la herramienta.
¡A esta altura, ya debes tener conocimiento experto de la herramienta Examinar! Si ya eres un genio con otras herramientas de Designer, contribuye al Blog de la Comunidad compartiendo tus experiencias y diciéndonos cómo y para qué utilizas nuestras herramientas en tu vida diaria. Si te interesa contribuir al Blog, envía un correo electrónico a flavia.brancato@alteryx.com para acceder a la sección.
Todos los lunes publicamos sobre una herramienta. Con eso en mente, nos encantaría saber cuál es tu favorita o, quizás, qué herramienta te gustaría ver aquí en la Comunidad la próxima semana. No olvides de suscribirte al panel de la Base de Conocimiento para recibir notificaciones de las últimas novedades.
*Esta publicación fue escrita originalmente por @Alteryx_KB en la Comunidad en inglés.