Blog

Garabujo7 · ‎08-07-2020

Minería de Texto con Alteryx

Dentro de la versión 2020.2 de Alteryx se incluyeron 3 nuevas y enormes funcionalidades:

AMP, motor de procesamiento paralelo

Tomado de Giphy

Modelado Asistido, el poder de la inteligencia aumentada

Tomado de Giphy

Y la minería de texto que es en lo que me enfocaré en este artículo.

Minería de texto

Primero, definámosla.

De acuerdo con el sitio monkeylearn.com: La minería de texto, también conocida como análisis de texto, es el proceso de transformar datos de texto no estructurados en información significativa y procesable. La minería de texto utiliza diferentes tecnologías de IA para procesar automáticamente datos y generar información valiosa, lo que permite a las empresas tomar decisiones basadas en datos.

Pero ¿por qué es relevante tener una paleta completa para hacer análisis de datos no estructurados?

Tomado de Giphy

Para responder eso podemos dar un vistazo al crecimiento que han tenido los datos en los últimos años.

Tomados de @lorilewis y @officialychad

Debido a la cantidad de información no estructurada o semiestructurada que existe en internet y cuyo crecimiento acelerado nos enfrenta a esos tipos de datos cada vez más frecuentemente.

Esos son muchos datos sin estructura, pero no te preocupes.

Tomado de Giphy y creado con online-image-editor

Alteryx está aquí para ayudarte.

Imagen a texto

Comenzaré con los 3 bloques analíticos relacionados con extracción de texto de PDF’s e imágenes y la creación de plantillas.

Plantilla de imagen

Voy a iniciar describiendo primero una funcionalidad muy práctica que te ayudará a ahorrar mucho tiempo y a facilitar la lectura de texto desde un archivo en PDF.

En lugar de tener que leer todo el texto de un documento en PDF, podemos crear una plantilla que facilitará el procesamiento del texto y tiene la capacidad de colocarlo en campos independientes para darle estructura a los datos.

Para empezar a utilizarlo, arrastramos el bloque analítico desde la nueva categoría minería de textos.

Clic en abrir PDF.

Seleccionamos el archivo PDF que vamos a utilizar como plantilla y aparecerá en la pantalla.

Ejemplo de una póliza de seguros.

Es ahí donde comenzamos a crear los campos que utilizaremos para la captura del texto haciendo clic y arrastrando el ratón.

Aparecerá un recuadro rojo y una ventana donde podremos elegir el tipo de dato y nos da dos opciones:

Cadena, que es texto
Imagen

Una vez que terminemos de crear los campos necesarios, podemos guardar las anotaciones para reusarlas.

Seleccionamos Anotaciones.

Tenemos 3 opciones.

- Importar, para abrir una anotación que hayamos guardado previamente.

- Exportar, para guardar la que estamos creando en este momento.

- Borrar todo, para eliminar todas las anotaciones que hayamos hecho hasta ahora.

Para este caso seleccionamos Exportar. Los marcadores se guardan en formato JSON.

También es posible crear marcadores para documentos que tengan varias páginas.

Simplemente seleccionamos el número de página y creamos un marcador para cada una.

Entrada de PDF

Para leer los archivos que emplearemos sólo es necesario que coloquemos la ruta donde se encuentran y leerá todos los PDF.

Imagen a texto

Para realizar el proceso de OCR (optical character recognition) utilizamos el algoritmo Tesseract OCR.

Aquí lo podemos usar para leer tanto imágenes como archivos en PDF o imágenes convertidas a formato PDF.

En este primer ejemplo lo haremos con un archivo en PDF.

Para configurar el bloque analítico solamente es necesario seleccionar:

El formato de entrada que, al estar conectado a una entrada de PDF, lo toma automáticamente
El idioma para reconocer el texto

Los disponibles son:

Árabe
Chino (simplificado)
Inglés
Francés
Alemán
Italiano
Japonés
Portugués
Español

Después de ejecutar el flujo, podemos ver los resultados.

Si vemos la entrada de datos (D) tenemos 3 columnas:

El contenido del PDF
El número de páginas que tiene el documento, si tiene múltiples páginas, se creará una línea para cada una
La ruta del archivo

En la entrada T está la plantilla con los marcadores para cada campo.

Por último, en la salida tenemos los datos que se capturaron en cada uno de los campos que seleccionamos.

Como pueden ver, ya que tenemos los datos, hay que limpiarlos y darles formato, para eso podemos utilizar los bloques analíticos de Alteryx como Limpieza de datos, Texto en columnas o incluso expresiones regulares para prepararlo y hacerlo más fácil de consumir.

Expresiones regulares (RegEx)

La ventaja de utilizar RegEx es que podemos identificar patrones en los caracteres y extraer sólo la información relevante que buscamos, como en el caso del número de serie de un vehículo, podemos obtenerlo de forma sencilla.

RegEx se encuentra en la categoría Analizar.

Al principio no son lo más accesible pero una vez las empiezas a utilizar, descubres su potencial. Este es un ejemplo de una expresión que utilicé para extraer el texto del número de serie.

Tomado de memegenerator.net

La expresión anterior toma el número de serie del campo vehículo asegurado.

De esta forma podemos simplificar la preparación de los datos después de leerlos de los documentos o imágenes.

Leer una imagen

Para leer un archivo de imagen como un .jpg o .png podemos usar una entrada blob seguida del bloque analítico Imagen a texto.

La Entrada Blob está en la categoría Desarrollador.

Para configurarlo solamente es necesario seleccionar:

El formato de entrada que al estar conectado a una entrada Blob, lo toma automáticamente
El idioma para reconocer el texto

En este no tenemos la posibilidad de crear campos separados para los datos por lo que todo el texto quedará en un solo campo que podemos preparar usando los bloques analíticos de preparación y expresiones regulares como las que revisamos antes.

Espero que ahora su conocimiento de Alteryx haya aumentado y se diviertan tanto como yo al investigar y escribir este artículo.

No lo olviden, me encantaría saber qué piensan de Intelligence Suite, pueden dejar sus comentarios abajo. Si lo que buscan es identificar tópicos dentro de muchos documentos, no se pierdan mi siguiente artículo donde revisaré los bloques analíticos para procesar lenguaje natural.

Blog

Minería de texto con Alteryx Intelligence Suite

Minería de Texto con Alteryx

AMP, motor de procesamiento paralelo

Modelado Asistido, el poder de la inteligencia aumentada

Minería de texto

Imagen a texto

Plantilla de imagen

Entrada de PDF

Imagen a texto

Expresiones regulares (RegEx)

Leer una imagen

Leer archivos de Excel de forma flexible

Instalar y configurar Alteryx Designer

Geocodificación de direcciones con Alteryx y Here

Macro ChatGPT para resolver tareas comunes de Alte...

Hay vida más allá de los dashboards - Introducción...