Free Trial

Blog

Visiones e ideas de las mentes más brillantes en el campo del análisis.
Garabujo7
Alteryx
Alteryx

Extraer datos de Constancias de Situación Fiscal parte 2

 

Como vimos en la primera parte de este artículo, hicimos la extracción y preparación del texto que tenía estructura en el documento. Aquí revisaremos cómo extraer el texto que no tiene formato y lo prepararemos para generar un reporte con los resultados.

Capturar texto sin plantilla

 

 

En este ejemplo, solamente la primera página de la constancia tiene un formato estándar, es decir, los campos vienen en el mismo lugar siempre. El resto de las páginas varía, la posición en que aparecen los datos depende de cada persona y ésta puede tener varios regímenes.

 

 

Lo primero es separar las páginas que tienen formato de las que no, para eso usamos un filtro por número de página.

 

 

Garabujo7_0-1656365140654.png

 

 

Usamos la herramienta Imagen a Texto de nuevo, pero está vez sin plantilla. Ya que el resto del texto no tiene un formato estándar. Así, todo el texto del documento se colocará en un solo campo.

 

Texto en Columnas

 

Después usamos Texto en Columnas para separar los datos por cada salto de línea.

 

 

Garabujo7_1-1656365140655.png

 

 

Las opciones de configuración son \n para dividir por salto de línea y usaremos la división en filas en lugar de la tradicional por columnas.

 

 

 

Garabujo7_2-1656365140657.png

 

 

 

Al dividir por filas, cada fila tendrá un registro. Esta opción es mejor que dividir en columnas porque no tenemos que saber el número final de filas que tendremos, no importa la cantidad que sea, mientras que en la división por columnas tenemos que saber cuántas columnas resultarán y no es dinámica, si el total cambia, el número se debe ajustar a mano.

 

El resultado son todas las filas con la información del documento.

 

 

 

Garabujo7_3-1656365140658.png

 

 

Fórmula de Filas Múltiples

 

Para poder separar las filas que contienen los regímenes usaremos la poderosa herramienta Fórmula de Filas Múltiples.

 

Esta trabaja como la fórmula normal, pero puede aplicar las expresiones un X número de renglones hacia arriba o hacia abajo.

 

 

 

Garabujo7_4-1656365140658.png

 

 

La configuración requiere en este caso, más pasos porque los regímenes pueden venir hasta 2 espacios después de la palabra regímenes.

 

Primero seleccionamos que se cree un campo nuevo.

 

 

 

Garabujo7_5-1656365140661.png

 

 

 

Se anexa el número de registros hacia arriba o abajo en los que la fórmula aplicará. Se expresa con Fila + o Fila -.

 

 

 

Garabujo7_6-1656365140662.png

 

 

Y, finalmente escribimos la expresión que aplicaremos a los datos.

 

 

 

Garabujo7_7-1656365140663.png

 

 

 

Lo que hace la expresión es buscar 1 fila arriba si contiene el texto “regímenes”, si está, concatena el texto de las dos siguientes líneas, línea +1 y línea +2, en caso contrario le pone un cero al nuevo campo.

 

Esto lo hace para incluir el texto de las dos líneas siguientes después de que se cubra la condición.

 

Ya que tenemos el texto que necesitamos, removemos los saltos de línea y espacios adicionales para filtrar y quedarnos sólo con los registros que se refieren a los regímenes.

 

Para eso usamos un Filtro, que si le ven parecido es porque es similar al disco Dark Side of the Moon de Pink Floyd.

 

 

 

Garabujo7_8-1656365140666.png

 

 

Sólo lo configuramos para que el campo sea igual a la palabra que buscamos, “regímenes”.

 

 

 

Garabujo7_9-1656365140667.png

 

 

Aquí vemos resultado, que incluye texto que no nos sirve y limpiaremos en el siguiente paso.

 

 

 

Garabujo7_10-1656365140668.png

 

 

RegEx

 

RegEx o expresiones regulares, nos dan la capacidad de buscar por patrones en el texto en lugar de texto fijo.

 

 

 

Garabujo7_11-1656365140669.png

 

 

Aquí lo usaremos para limpiar el texto que no nos sirve dentro del campo regímenes. En este caso nos sobra la fecha.

 

 

 

Garabujo7_12-1656365140670.png

 

 

La expresión para hacerlo es:

 

 

 

Garabujo7_13-1656365140674.png

 

 

Seleccionamos el campo para analizar, “Regímenes”.

 

 

La explicación de lo que hace cada parte de la expresión regular la podemos encontrar en el campo de expresión regular, haciendo clic en el signo de más.

 

 

 

Garabujo7_14-1656365140676.png

 

 

La expresión anterior separa el texto que nos interesa de la parte que no nos es útil para poder trabajar.

 

Así, con expresiones regulares podemos extraer cualquier patrón dentro de un texto, de forma dinámica y con una expresión muy breve.

 

Reporte Final

 

Por último, crearemos el reporte con los datos que preparamos para que queden en un formato que puedan utilizar otras personas.

 

En este caso seleccioné PDF como el formato final para la información.

 

Con la herramienta Tabla, selecciono los campos que se incluirán.

 

 

 

Garabujo7_15-1656365140677.png

 

Garabujo7_16-1656365140681.png

 

 

Después, con la herramienta Presentación configuro la salida y la ruta donde se guardará el reporte.

 

Entre las opciones para reportes tenemos HTML, Excel, Word, Power Point, PNG, PDF y RTF.

 

 

 

Garabujo7_17-1656365140682.png

 

Garabujo7_18-1656365140686.png

 

 

De esta forma se creará el siguiente resultado que ahora puede ejecutarse automáticamente para analizar los documentos en PDF.

 

 

Garabujo7_19-1656365140688.png

 

 

Conclusión

 

Con Alteryx podemos leer documentos en PDF o imágenes digitalizadas para extraer la información relevante, ya sea que tenga un formato estándar o no, como vimos en este artículo.

 

Ahora que construimos la lógica y sabemos la estructura que requerimos, podemos automatizar el proceso para que se ejecute de forma periódica y extraiga la información de los formatos en PDF que tengamos. No importa el número de documentos, la plataforma puede obtener sus datos fácilmente y en segundos.

 

Minimizando el tiempo para revisar los documentos uno por uno, reduciendo el número de errores por captura manual y liberando recursos para ocuparlos en otras actividades que sean más prioritarias para el negocio.

 

 

 

 

 

 

Referencias

 

Los ejemplos de constancias de situación fiscales usados en este artículo son:

http://www.economia-snci.gob.mx/tlcan/docsup/223-1187074717.pdf

https://smnyct.org/files/constancia-situcion-fiscal.jsf.pdf

Etiquetas