- Suscribirse a un feed RSS
- Marcar como nuevo
- Marcar como leída
- Favorito
- Suscribir
- Página de impresión sencilla
- Notificar al moderador
- Suscribirse a un feed RSS
- Marcar como nuevo
- Marcar como leída
- Favorito
- Suscribir
- Página de impresión sencilla
- Notificar al moderador
Minería de Texto con Alteryx
Dentro de la versión 2020.2 de Alteryx se incluyeron 3 nuevas y enormes funcionalidades:
AMP, motor de procesamiento paralelo
Tomado de Giphy
Modelado Asistido, el poder de la inteligencia aumentada
Tomado de Giphy
Y la minería de texto que es en lo que me enfocaré en este artículo.
Minería de texto
Primero, definámosla.
De acuerdo con el sitio monkeylearn.com: La minería de texto, también conocida como análisis de texto, es el proceso de transformar datos de texto no estructurados en información significativa y procesable. La minería de texto utiliza diferentes tecnologías de IA para procesar automáticamente datos y generar información valiosa, lo que permite a las empresas tomar decisiones basadas en datos.
Pero ¿por qué es relevante tener una paleta completa para hacer análisis de datos no estructurados?
Tomado de Giphy
Para responder eso podemos dar un vistazo al crecimiento que han tenido los datos en los últimos años.
Tomados de @lorilewis y @officialychad
Debido a la cantidad de información no estructurada o semiestructurada que existe en internet y cuyo crecimiento acelerado nos enfrenta a esos tipos de datos cada vez más frecuentemente.
Esos son muchos datos sin estructura, pero no te preocupes.
Tomado de Giphy y creado con online-image-editor
Alteryx está aquí para ayudarte.
Imagen a texto
Comenzaré con los 3 bloques analíticos relacionados con extracción de texto de PDF’s e imágenes y la creación de plantillas.
Plantilla de imagen
Voy a iniciar describiendo primero una funcionalidad muy práctica que te ayudará a ahorrar mucho tiempo y a facilitar la lectura de texto desde un archivo en PDF.
En lugar de tener que leer todo el texto de un documento en PDF, podemos crear una plantilla que facilitará el procesamiento del texto y tiene la capacidad de colocarlo en campos independientes para darle estructura a los datos.
Para empezar a utilizarlo, arrastramos el bloque analítico desde la nueva categoría minería de textos.
Clic en abrir PDF.
Seleccionamos el archivo PDF que vamos a utilizar como plantilla y aparecerá en la pantalla.
Ejemplo de una póliza de seguros.
Es ahí donde comenzamos a crear los campos que utilizaremos para la captura del texto haciendo clic y arrastrando el ratón.
Aparecerá un recuadro rojo y una ventana donde podremos elegir el tipo de dato y nos da dos opciones:
- Cadena, que es texto
- Imagen
Una vez que terminemos de crear los campos necesarios, podemos guardar las anotaciones para reusarlas.
Seleccionamos Anotaciones.
Tenemos 3 opciones.
- Importar, para abrir una anotación que hayamos guardado previamente.
- Exportar, para guardar la que estamos creando en este momento.
- Borrar todo, para eliminar todas las anotaciones que hayamos hecho hasta ahora.
Para este caso seleccionamos Exportar. Los marcadores se guardan en formato JSON.
También es posible crear marcadores para documentos que tengan varias páginas.
Simplemente seleccionamos el número de página y creamos un marcador para cada una.
Entrada de PDF
Para leer los archivos que emplearemos sólo es necesario que coloquemos la ruta donde se encuentran y leerá todos los PDF.
Imagen a texto
Para realizar el proceso de OCR (optical character recognition) utilizamos el algoritmo Tesseract OCR.
Aquí lo podemos usar para leer tanto imágenes como archivos en PDF o imágenes convertidas a formato PDF.
En este primer ejemplo lo haremos con un archivo en PDF.
Para configurar el bloque analítico solamente es necesario seleccionar:
- El formato de entrada que, al estar conectado a una entrada de PDF, lo toma automáticamente
- El idioma para reconocer el texto
Los disponibles son:
- Árabe
- Chino (simplificado)
- Inglés
- Francés
- Alemán
- Italiano
- Japonés
- Portugués
- Español
Después de ejecutar el flujo, podemos ver los resultados.
Si vemos la entrada de datos (D) tenemos 3 columnas:
- El contenido del PDF
- El número de páginas que tiene el documento, si tiene múltiples páginas, se creará una línea para cada una
- La ruta del archivo
En la entrada T está la plantilla con los marcadores para cada campo.
Por último, en la salida tenemos los datos que se capturaron en cada uno de los campos que seleccionamos.
Como pueden ver, ya que tenemos los datos, hay que limpiarlos y darles formato, para eso podemos utilizar los bloques analíticos de Alteryx como Limpieza de datos, Texto en columnas o incluso expresiones regulares para prepararlo y hacerlo más fácil de consumir.
Expresiones regulares (RegEx)
La ventaja de utilizar RegEx es que podemos identificar patrones en los caracteres y extraer sólo la información relevante que buscamos, como en el caso del número de serie de un vehículo, podemos obtenerlo de forma sencilla.
RegEx se encuentra en la categoría Analizar.
Al principio no son lo más accesible pero una vez las empiezas a utilizar, descubres su potencial. Este es un ejemplo de una expresión que utilicé para extraer el texto del número de serie.
Tomado de memegenerator.net
La expresión anterior toma el número de serie del campo vehículo asegurado.
De esta forma podemos simplificar la preparación de los datos después de leerlos de los documentos o imágenes.
Leer una imagen
Para leer un archivo de imagen como un .jpg o .png podemos usar una entrada blob seguida del bloque analítico Imagen a texto.
La Entrada Blob está en la categoría Desarrollador.
Para configurarlo solamente es necesario seleccionar:
- El formato de entrada que al estar conectado a una entrada Blob, lo toma automáticamente
- El idioma para reconocer el texto
En este no tenemos la posibilidad de crear campos separados para los datos por lo que todo el texto quedará en un solo campo que podemos preparar usando los bloques analíticos de preparación y expresiones regulares como las que revisamos antes.
Espero que ahora su conocimiento de Alteryx haya aumentado y se diviertan tanto como yo al investigar y escribir este artículo.
No lo olviden, me encantaría saber qué piensan de Intelligence Suite, pueden dejar sus comentarios abajo. Si lo que buscan es identificar tópicos dentro de muchos documentos, no se pierdan mi siguiente artículo donde revisaré los bloques analíticos para procesar lenguaje natural.
Debe ser un usuario registrado para añadir un comentario aquí. Si ya está registrado, inicie sesión. Si todavía no está registrado, hágalo e inicie sesión.