Free Trial

Blog

Visiones e ideas de las mentes más brillantes en el campo del análisis.
Garabujo7
Alteryx
Alteryx

Minería de Texto con Alteryx

 

Dentro de la versión 2020.2 de Alteryx se incluyeron 3 nuevas y enormes funcionalidades:

 

AMP, motor de procesamiento paralelo

 

Tomado de GiphyTomado de Giphy

 

 

 

Modelado Asistido, el poder de la inteligencia aumentada

 

Tomado de GiphyTomado de Giphy

 

 

Y la minería de texto que es en lo que me enfocaré en este artículo.

 

Minería de texto

Primero, definámosla.

 

De acuerdo con el sitio monkeylearn.com: La minería de texto, también conocida como análisis de texto, es el proceso de transformar datos de texto no estructurados en información significativa y procesable. La minería de texto utiliza diferentes tecnologías de IA para procesar automáticamente datos y generar información valiosa, lo que permite a las empresas tomar decisiones basadas en datos.

 

Pero ¿por qué es relevante tener una paleta completa para hacer análisis de datos no estructurados?

 

Tomado de GiphyTomado de Giphy

 

 

 

Para responder eso podemos dar un vistazo al crecimiento que han tenido los datos en los últimos años.

 

 

 

Garabujo7_3-1596834196441.pngGarabujo7_4-1596834196495.png

 

 

Garabujo7_5-1596834196518.jpegGarabujo7_6-1596834196535.jpeg

 

Tomados de @lorilewis y @officialychad

 

 

Debido a la cantidad de información no estructurada o semiestructurada que existe en internet y cuyo crecimiento acelerado nos enfrenta a esos tipos de datos cada vez más frecuentemente.

 

Esos son muchos datos sin estructura, pero no te preocupes.

 

 

Tomado de Giphy y creado con online-image-editorTomado de Giphy y creado con online-image-editor

 

 

 

Alteryx está aquí para ayudarte.

 

 

Garabujo7_8-1596834554022.pngGarabujo7_9-1596834554024.pngGarabujo7_10-1596834554026.png

Garabujo7_11-1596834554029.pngGarabujo7_12-1596834554031.pngGarabujo7_13-1596834554033.png

Garabujo7_14-1596834554035.png

 

 

 

 

Imagen a texto

Comenzaré con los 3 bloques analíticos relacionados con extracción de texto de PDF’s e imágenes y la creación de plantillas.

Plantilla de imagen

Voy a iniciar describiendo primero una funcionalidad muy práctica que te ayudará a ahorrar mucho tiempo y a facilitar la lectura de texto desde un archivo en PDF.

 

 

Garabujo7_15-1596834554036.png

 

 

En lugar de tener que leer todo el texto de un documento en PDF, podemos crear una plantilla que facilitará el procesamiento del texto y tiene la capacidad de colocarlo en campos independientes para darle estructura a los datos.

Para empezar a utilizarlo, arrastramos el bloque analítico desde la nueva categoría minería de textos.

 

 

Garabujo7_16-1596834554046.png

 

Clic en abrir PDF.

 

Garabujo7_17-1596834554047.png

 

Seleccionamos el archivo PDF que vamos a utilizar como plantilla y aparecerá en la pantalla.

 

 

Garabujo7_18-1596834554065.png

 

 

Ejemplo de una póliza de seguros.

 

Es ahí donde comenzamos a crear los campos que utilizaremos para la captura del texto haciendo clic y arrastrando el ratón.

Aparecerá un recuadro rojo y una ventana donde podremos elegir el tipo de dato y nos da dos opciones:

 

  1. Cadena, que es texto
  2. Imagen

Garabujo7_19-1596834554091.png

 

Una vez que terminemos de crear los campos necesarios, podemos guardar las anotaciones para reusarlas.

 

Seleccionamos Anotaciones.

 

Garabujo7_20-1596834554092.png

 

Tenemos 3 opciones.

 

Garabujo7_21-1596834554094.png

 

 

- Importar, para abrir una anotación que hayamos guardado previamente.

- Exportar, para guardar la que estamos creando en este momento.

- Borrar todo, para eliminar todas las anotaciones que hayamos hecho hasta ahora.


Para este caso seleccionamos Exportar. Los marcadores se guardan en formato JSON.

 

 

Garabujo7_22-1596834554097.png

 

 

También es posible crear marcadores para documentos que tengan varias páginas.

Simplemente seleccionamos el número de página y creamos un marcador para cada una.

 

 

Garabujo7_23-1596834554098.png

 

 

Entrada de PDF

 

Garabujo7_24-1596834554100.png

 

Para leer los archivos que emplearemos sólo es necesario que coloquemos la ruta donde se encuentran y leerá todos los PDF.

 

 

Garabujo7_25-1596834554102.png

 

Imagen a texto

 

Para realizar el proceso de OCR (optical character recognition) utilizamos el algoritmo Tesseract OCR.

Aquí lo podemos usar para leer tanto imágenes como archivos en PDF o imágenes convertidas a formato PDF.

En este primer ejemplo lo haremos con un archivo en PDF.

 

Para configurar el bloque analítico solamente es necesario seleccionar:

 

  • El formato de entrada que, al estar conectado a una entrada de PDF, lo toma automáticamente
  • El idioma para reconocer el texto

Los disponibles son:

 

  • Árabe
  • Chino (simplificado)
  • Inglés
  • Francés
  • Alemán
  • Italiano
  • Japonés
  • Portugués
  • Español

 

Garabujo7_26-1596834554104.png

 

 

Después de ejecutar el flujo, podemos ver los resultados.

 

 

Garabujo7_27-1596834554107.png

 

 

Si vemos la entrada de datos (D) tenemos 3 columnas:

 

  1. El contenido del PDF
  2. El número de páginas que tiene el documento, si tiene múltiples páginas, se creará una línea para cada una
  3. La ruta del archivo

 

En la entrada T está la plantilla con los marcadores para cada campo.

 

 

Garabujo7_28-1596834554108.png

 

Por último, en la salida tenemos los datos que se capturaron en cada uno de los campos que seleccionamos.

 

 

Garabujo7_29-1596834554109.png

 

Como pueden ver, ya que tenemos los datos, hay que limpiarlos y darles formato, para eso podemos utilizar los bloques analíticos de Alteryx como Limpieza de datos, Texto en columnas o incluso expresiones regulares para prepararlo y hacerlo más fácil de consumir.

 

Expresiones regulares (RegEx)

 

La ventaja de utilizar RegEx es que podemos identificar patrones en los caracteres y extraer sólo la información relevante que buscamos, como en el caso del número de serie de un vehículo, podemos obtenerlo de forma sencilla.

 

RegEx se encuentra en la categoría Analizar.

 

 

Garabujo7_30-1596834554110.png

 

Al principio no son lo más accesible pero una vez las empiezas a utilizar, descubres su potencial. Este es un ejemplo de una expresión que utilicé para extraer el texto del número de serie.

 

 

Garabujo7_31-1596834554115.png

 

 

 

 

Tomado de memegenerator.netTomado de memegenerator.net

 

 

La expresión anterior toma el número de serie del campo vehículo asegurado.

 

 

Garabujo7_33-1596834554121.png

 

De esta forma podemos simplificar la preparación de los datos después de leerlos de los documentos o imágenes.

 

Leer una imagen

Para leer un archivo de imagen como un .jpg o .png podemos usar una entrada blob seguida del bloque analítico Imagen a texto.

La Entrada Blob está en la categoría Desarrollador.

 

 

Garabujo7_34-1596834554122.png

 

Para configurarlo solamente es necesario seleccionar:

 

  • El formato de entrada que al estar conectado a una entrada Blob, lo toma automáticamente
  • El idioma para reconocer el texto

 

Garabujo7_35-1596834554123.png

 

 

En este no tenemos la posibilidad de crear campos separados para los datos por lo que todo el texto quedará en un solo campo que podemos preparar usando los bloques analíticos de preparación y expresiones regulares como las que revisamos antes.

 

 

Skillful.gif

 

 

Espero que ahora su conocimiento de Alteryx haya aumentado y se diviertan tanto como yo al investigar y escribir este artículo.

 

No lo olviden, me encantaría saber qué piensan de Intelligence Suite, pueden dejar sus comentarios abajo. Si lo que buscan es identificar tópicos dentro de muchos documentos, no se pierdan mi siguiente artículo donde revisaré los bloques analíticos para procesar lenguaje natural.

 

 

Etiquetas