Dentro de la versión 2020.2 de Alteryx se incluyeron 3 nuevas y enormes funcionalidades:
Y la minería de texto que es en lo que me enfocaré en este artículo.
Primero, definámosla.
De acuerdo con el sitio monkeylearn.com: La minería de texto, también conocida como análisis de texto, es el proceso de transformar datos de texto no estructurados en información significativa y procesable. La minería de texto utiliza diferentes tecnologías de IA para procesar automáticamente datos y generar información valiosa, lo que permite a las empresas tomar decisiones basadas en datos.
Pero ¿por qué es relevante tener una paleta completa para hacer análisis de datos no estructurados?
Para responder eso podemos dar un vistazo al crecimiento que han tenido los datos en los últimos años.
Tomados de @lorilewis y @officialychad
Debido a la cantidad de información no estructurada o semiestructurada que existe en internet y cuyo crecimiento acelerado nos enfrenta a esos tipos de datos cada vez más frecuentemente.
Esos son muchos datos sin estructura, pero no te preocupes.
Alteryx está aquí para ayudarte.
Comenzaré con los 3 bloques analíticos relacionados con extracción de texto de PDF’s e imágenes y la creación de plantillas.
Voy a iniciar describiendo primero una funcionalidad muy práctica que te ayudará a ahorrar mucho tiempo y a facilitar la lectura de texto desde un archivo en PDF.
En lugar de tener que leer todo el texto de un documento en PDF, podemos crear una plantilla que facilitará el procesamiento del texto y tiene la capacidad de colocarlo en campos independientes para darle estructura a los datos.
Para empezar a utilizarlo, arrastramos el bloque analítico desde la nueva categoría minería de textos.
Clic en abrir PDF.
Seleccionamos el archivo PDF que vamos a utilizar como plantilla y aparecerá en la pantalla.
Ejemplo de una póliza de seguros.
Es ahí donde comenzamos a crear los campos que utilizaremos para la captura del texto haciendo clic y arrastrando el ratón.
Aparecerá un recuadro rojo y una ventana donde podremos elegir el tipo de dato y nos da dos opciones:
Una vez que terminemos de crear los campos necesarios, podemos guardar las anotaciones para reusarlas.
Seleccionamos Anotaciones.
Tenemos 3 opciones.
- Importar, para abrir una anotación que hayamos guardado previamente.
- Exportar, para guardar la que estamos creando en este momento.
- Borrar todo, para eliminar todas las anotaciones que hayamos hecho hasta ahora.
Para este caso seleccionamos Exportar. Los marcadores se guardan en formato JSON.
También es posible crear marcadores para documentos que tengan varias páginas.
Simplemente seleccionamos el número de página y creamos un marcador para cada una.
Para leer los archivos que emplearemos sólo es necesario que coloquemos la ruta donde se encuentran y leerá todos los PDF.
Para realizar el proceso de OCR (optical character recognition) utilizamos el algoritmo Tesseract OCR.
Aquí lo podemos usar para leer tanto imágenes como archivos en PDF o imágenes convertidas a formato PDF.
En este primer ejemplo lo haremos con un archivo en PDF.
Para configurar el bloque analítico solamente es necesario seleccionar:
Los disponibles son:
Después de ejecutar el flujo, podemos ver los resultados.
Si vemos la entrada de datos (D) tenemos 3 columnas:
En la entrada T está la plantilla con los marcadores para cada campo.
Por último, en la salida tenemos los datos que se capturaron en cada uno de los campos que seleccionamos.
Como pueden ver, ya que tenemos los datos, hay que limpiarlos y darles formato, para eso podemos utilizar los bloques analíticos de Alteryx como Limpieza de datos, Texto en columnas o incluso expresiones regulares para prepararlo y hacerlo más fácil de consumir.
La ventaja de utilizar RegEx es que podemos identificar patrones en los caracteres y extraer sólo la información relevante que buscamos, como en el caso del número de serie de un vehículo, podemos obtenerlo de forma sencilla.
RegEx se encuentra en la categoría Analizar.
Al principio no son lo más accesible pero una vez las empiezas a utilizar, descubres su potencial. Este es un ejemplo de una expresión que utilicé para extraer el texto del número de serie.
La expresión anterior toma el número de serie del campo vehículo asegurado.
De esta forma podemos simplificar la preparación de los datos después de leerlos de los documentos o imágenes.
Para leer un archivo de imagen como un .jpg o .png podemos usar una entrada blob seguida del bloque analítico Imagen a texto.
La Entrada Blob está en la categoría Desarrollador.
Para configurarlo solamente es necesario seleccionar:
En este no tenemos la posibilidad de crear campos separados para los datos por lo que todo el texto quedará en un solo campo que podemos preparar usando los bloques analíticos de preparación y expresiones regulares como las que revisamos antes.
Espero que ahora su conocimiento de Alteryx haya aumentado y se diviertan tanto como yo al investigar y escribir este artículo.
No lo olviden, me encantaría saber qué piensan de Intelligence Suite, pueden dejar sus comentarios abajo. Si lo que buscan es identificar tópicos dentro de muchos documentos, no se pierdan mi siguiente artículo donde revisaré los bloques analíticos para procesar lenguaje natural.
Debe ser un usuario registrado para añadir un comentario aquí. Si ya está registrado, inicie sesión. Si todavía no está registrado, hágalo e inicie sesión.